欢迎来到天天文库
浏览记录
ID:55662386
大小:252.52 KB
页数:3页
时间:2020-05-23
《旅游本体的概念相似度算法改进.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、第31卷第1期计算机应用与软件Vol_31No.12014年1月ComputerApplicationsandSoftwareJan.2014旅游本体的概念相似度算法改进李燕妮李海生蔡强(北京工商大学计算机与信息工程学院北京100048)摘要传统的基于信息内容的概念相似度算法在计算信息内容值时过于依赖语料库,给出一个新的只通过WordNet结构计算概念语义相似度的信息内容模型。该模型以WordNet的is—a关系为基础,不仅考虑了概念所包含的子节点个数和所处深度,而且将该概念所处的簇及父节点的信息内容值引入到模型中,使得概念
2、的信息内容值更为精确。实验结果显示将该模型应用到领域本体的概念相似度计算中,可以明显提高现有相似度算法的性能。关键词语义相似度信息内容旅游本体中图分类号TP391.1文献标识码ADOI:10.3969/j.issn.1000-386x.2014.01.088IMPRoVINGCONCEPTSIMILAIUTYALGoRITHMOFTRAVELONToLoGYLiYanniLiHaishengCaiQiang(CollegeofComputerandInformationEngineering,Be~jingTechnolog
3、yandBusinessUniversity,Beijing100048,China)AbstractConventionalIC—basedconceptsimilarityalgorithmhasoverrelianceonthecorpuswhencomputingtheinformationcontentvalue.Inthispaper,weproposeanewinformationcontentmodel,whichcomputestheconceptsemanticsimilarityonlybyWordNe
4、tstructure.Themodelisbasedonis—arelationinWordNet,apartfromconsideringthenumberofthesub—nodestheconceptincludedandtheirdepth.theclustertheconceptiSlocatedatandtheICvalHeofthefathernodearealsointroducedtothemode1.thustheconcept’SICvalueismoreaccurate.Experimentalres
5、ultsshowthattoapplythemodeltoconceptsimilaritycomputationofdomainotology,theperformanceofexistingsimilarityalgorithmcanberemarkablyimproved.KeywordsSemanticsimilarityInformationcontent(IC)Travelontology本文结合WordNet词典本身结构,综合考虑概念在分类树0引言中的子节点信息、深度信息、公共父节点信息,提出了一个新的基于信息
6、内容的概念语义相似度算法,这种基于WordNet本身语义相似度是用来衡量文档或术语的语义内容或涵义间的结构的求解方法不需要其他语料库的参与,简单易行。同时本相似程度的概念,目前相似度计算已广泛应用于本体学习与文利用WordNet词典,构建了旅游领域本体,通过实例证明该算合并、语义标注、知识管理中的信息抽取及自然语言理解等相关法有效地提高了概念间语义相似度计算的准确度。领域。与依赖关键词的检索相比,基于语义的检索能大幅度提高信息检索的查准率和查全率。而概念的相似度计算决定1信息内容了语义匹配的精确度,是语义检索的基础,因此提高
7、概念相似度1.1信息内容算法概述计算的精确度成为本体应用的关键。目前,国内外学者已经对概念相似度计算进行了广泛的探用数学语言去描述WordNet中的概念的信息内容参数,P索和研究,提出了很多计算相似度的方法。根据所使用的数据(C)表示遇到概念C的实例的概率。根据信息理论中的定义,信息内容表示为一logP(C),即1C(C)=一logP(c),含义是一个概源及数据源的使用方式,相似度算法大致可分为基于路径的方念的出现的概率越大,则该概念的自信息量就越小。其中,c是法、基于特征的方法、基于信息内容IC(InformationCo
8、ntent)的方指某一具体概念,/C(c)指概念C的信息内容值。在Resnik的实法。基于路径的方法把概念相似性度量建立在本体中分割两个验中,求解P(c)的方法是统计布朗语料库中名词出现的频率,概念的语义连接数目上.4J。基于特征的方法根据本体概念描计算方法可以形式化表示为:述模型中相同和
此文档下载收益归作者所有