基于术语间本体关联度的文档相关度研究-论文.pdf

基于术语间本体关联度的文档相关度研究-论文.pdf

ID:53762835

大小:356.18 KB

页数:5页

时间:2020-04-24

基于术语间本体关联度的文档相关度研究-论文.pdf_第1页
基于术语间本体关联度的文档相关度研究-论文.pdf_第2页
基于术语间本体关联度的文档相关度研究-论文.pdf_第3页
基于术语间本体关联度的文档相关度研究-论文.pdf_第4页
基于术语间本体关联度的文档相关度研究-论文.pdf_第5页
资源描述:

《基于术语间本体关联度的文档相关度研究-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、2014年9月现代情报Sep.,2014第3_4卷第9期JournalofModemInformationV01.34No.9·理论探索·基于术语间本体关联度的文档相关度研究吴树芳刘畅2徐建民3(1.河北大学管理学院,河北保定071000;2.河北大学附属医院,河北保定071000;3.河北大学数学与计算机学院,河北保定071000)(摘要】提出了一种基于术语闻本体关联度的文档相关度计算方法。该方法利用树状本体结构计算术语阍基于本体的关联关系,通过术语组间的本体关联度得到两组词语的本体关联关系,最后结合文档标引词的权重计算两个文档的相关度。新方法从本体的角度将语义信息融

2、入传统向量空间模型。提高了文档相关度计算的准确性。实验选取计算机领域本体作为实验数据,对新方法和传统方法进行综合对比评测,实验结果验证了新方法的有效性和合理性。[关键词】本体;术语关系;文档相关度DOl:10.3969/i.issn.1008一o821.2O14.09.009[中图分类号](;353;TP393[文献标识码]A[文章编号]1008—0821(2014)09—0056—04ResearchonDocumentRelevancyBasedonOntologyTermRelationsWuShufang。LiuChang2XuJianmln3(1.Colleg

3、eofManagement,HebeiUniversity,Baoding071000,China;2.AffiliatedHospitalofHebeiUniversity,Baoding071000,China;3.CollegeofMathematicsandComputer,HebeiUniversity,Baeding071000,China)[Abstract]AcalculationmethodofdocumentrelevancybasedOilontologytermrelationsisputtedforward,whicht1.se8tree—li

4、keontologicalstructuretocalculatetherelatedrelationshipbetweenterms,obtainstheontologyrelafiomhipsbetweentwogroupsofughtheontologycorrelationdegreeofterms,mergestheweightofindexedwtocomputetherele-vancyoftwodocuments.Thismethodmergessemanticinformationtotraditionalvectorspacemodelfromont

5、ology,impro,~gtheaccuracyofdocumentwaevancy.Thepaperadoptcomputerdomainontologyasexpe哪绷taldata,experimentalresultstestifytherationalityandefectivenessofthencwmethod.[Keywolds]ontology;termrelationship;documentrelevancy文档相似度或相关度的计算早已成为数据挖掘和信息之间的关系是正交的,没有合理考虑文档之间的语义联系,提取领域中的基本问题,是文本处理的核心-1

6、]。传统的其结果可能造成得到的文档相关度和实际情况之间有较大文档相似度计算方法主要包括基于向量空间模型方法,基误差。主要表现包括两个方面:其一,当两篇文档确实相关于集合运算模型方法[引,基于文档结构方法[5]和基于引文或属于同领域中某一概念的不同子概念时。由于用词表达不图方法【6J等,其中以向量空间模型方法最为常见,后两种一致,利用传统方法无法计算出他们之间的相关度;其二,方法偏重于研究文档间结构的相似程度。当文档属于不同领域,但是用词一致,且出现频率极高时,向量空间模型方法一般以基于词频与逆文档频率统计通过传统方法计算相关度会很大,与实际情况不符。的文本特征向量为基础

7、,通过向量间的夹角余弦计算文档本体作为领域知识规范化的描述,定义了相关的概念间的相似程度-7J。这种方法的缺点在于必须假设特征元素术语,描述了概念间的语义联系,为计算文档语义相关度收稿日期:2014—07—17基金项目:中国博士后科学基金资助项目(项目编号:20070420700);河北省自然科学基金资助项目(项目编号:F2011201146)。作者简介:吴树芳(1979一),女,博士研究生,研究方向:信息系统、不确定信息处理。通讯作者:徐建民(1966一),男,教授,研究方向:信息检索、不确定信息处理。一56—第2031-44卷年第9月

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。