欢迎来到天天文库
浏览记录
ID:5269978
大小:401.15 KB
页数:4页
时间:2017-12-07
《一种基于知网的句子相似度计算方法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、万方数据CN43—1258/TPISSN1007—130X计算机工程与科学COMPUTERENGINEERING&SCIENCE2012年第34卷第2期V01.34,No.2,2012文章编号:1007—130x(2012)02—0172一04一种基于知网的句子相似度计算方法+AMethodofSentenceSimilarityComputingBasedonHownet程传鹏。吴志刚CHENGChuan-peng,WUZhi—gang(中原工学院计算机学院,河南郑州450007)(SchoolofComputerS
2、cience,zhongyuanInstituteofTechnology,zhengzhou450007,China)摘要:句子相似度是衡量文档相似度的基础,在自然语言处理领域中有着非常重要的作用。目前的句子相似度计算方法忽略了句子的结构对相似度的影响。本文在分析已有研究工作的基础上,提出了一种改进的句子相似度计算方法。依据知网对“实体概念”的描述,构造出义原的语义层次树,由各个义原在树中的相对位置,计算出义原之间的相似度。对三种义原加权求和得到词语之间的语义相似度。综合句子的表层相似度和句子的词语语义以及词语的相对
3、位置关系,得到句子的整体相似度。实验表明,在同等的测试条件下,本文所提出的句子相似度计算方法在相似度比较上更符合人的直观感觉。Abstract:Sentencesimilarityisthebasisofdocumentsimilarity,andsentencesimilaritycomputingplaysanimportantroleinthefieldofnaturallanguageprocessing.Thecurrentmethodsofsentencesim—ilaritycomputingne91ec
4、ttheinfluenceofsentencestructure.onthebasisoftheinterrelatedresearch,thispaperproposesanimprovedmethodofsimilaritycomparison.Thesemantictreeofsememeiscon—structedaccordingtothedescriptionofentityconceptionintheHownet,thesemanticsimilarityofsem—emeiscomputedbased
5、ontherelativepositionsinthesememetree.Calculatingofsentencesimilarityisbasedonsurfacesimilarityandsemanticsimilarity.Underthesametestconditions,theexperimentsshowthattheproposedmethodismuchclosertothepeople’scomprehensiontothemeaningsofthesen—tenCeS.关键词:句子相似度;知网
6、;表层相似度;语义偏移量Keywords:sentencesimilarity;hownet;surfacesimilarity;semanticoffsetsimilaritydoi:10.3969/j.issn.1007—130X.2012.02.031中图分类号:TP391.1文献标识码:A引言句子相似度的比较作为中文信息处理研究领域中一个关键的问题,一直以来都是人们研究的热点和难点。句子相似度计算在自动问答、双语例句检索、文档文摘等领域都有很重要的应用价值。目前,句子相似度计算的方法主要有两种:一种是基于词语共
7、现的统计方法,例如,北大计算语言所提出的一种句子相似度计算公式:2c/(m+竹)(其中m、咒分别表示两个句子的词数,c是两个句子中相同词的数目[1]。);另外一种是基于词汇的词法和语义信息的分析[2’3]。第一种方法简单、高效,但忽视了词汇的词法和语义信息,因此在计算句子整体相似度上不够准确;第二种方法虽然考虑到了词语的语义信息,但忽略了词语之间的相对位置信息。÷收稿日期:2011—07—23;修订日期:2011—10—08基金项目:河南省教育厅自然科学资助项目(200885z0046)通讯地址:450007河南省郑州
8、市中原工学院计算机学院AddI℃ss:SchoolofComputerScience,ZhongyuanInstituteofTechnology,Zhengzhou,Henan450007,P.R.China万方数据程传鹏等:一种基于知网的句子相似度计算方法173本文在已有研究工作的基础上,综合考虑了两种方法的优缺点,提出了一种
此文档下载收益归作者所有