欢迎来到天天文库
浏览记录
ID:53769019
大小:397.18 KB
页数:6页
时间:2020-04-25
《一种基于向量词序的句子相似度算法研究-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、第31卷第7期计算机仿真2014年7月文章编号:1006—9348(2014)07—0419—06一种基于向量词序的句子相似度算法研究程志强,闵华松(1.武汉科技大学信息科学与工程学院,湖北武汉430081;2.武汉科技大学冶金自动化与检测技术教育部工程研究中心,湖北武汉430081)摘要:针对传统的句子相似度算法在句法结构等方面存在匹配率低的问题。为提高相似度计算的准确性,提出了一种改进的基于向量距离词序的句子相似度算法,从特征领域权重和词序方面进行改进,通过建立相应的领域特征集,对于相关领域的特征项给予更高的权重,同时,在向量空间模型的基础上,引入词序因子,计
2、算句子词序相似度。使用包含6个领域的2651个句子作为语料库,实验结果表明,改进方法使特征领域内句子相似度计算的准确度得到提高。关键词:向量空间模型;特征领域权重;词序中图分类号:TP391文献标识码:BASentencesSimilarityAlgorithmBasedonWordOrderofVectorsDistanceCHENGZhi—qiang.MINHua—song,(1.CollegeofInformationScienceandEngineering,WuhanUniversityofScienceandTechnology,WuhanHubei4
3、30081,China;2.EngineeringResearchCenterofMetallurgicalAutomationandMeasurementTechnologyofMinistryofEducation,WuhanUniversityofScienceandTechnology,WuhanHubei430081,China)ABSTRACT:Traditionalsentencesimilarityalgorithmscannotachievehighaccuracyofsimilaritycalculationduetotheirlowmatch
4、ingrateinthesyntacticstructure.Thispaperproposesanimprovedsentencesimilarityalgorithmbasedonthewordorderofvectordistancetoimprovetheaccuracyofsimilaritycalculation.Itimprovesfromthetextfeature-weightandChinesewordordercalculation.Withtheestablishmentofcorrespondingdomainfeatureset,the
5、featureiteminthedomainwillbegivenahigherweight.AtthesalTletime,onthebasisofthevectorspacemodel,wordor-derfactorisintroducedforthesimilaritycalculationofChinesewordorder.Withthecorpuscontainingsixareasof2651sentences,theexperimentalresultshowsthattheproposedalgorithmcanincreasetheaccur
6、acyofsimilaritycal—culationwithinthedomain.KEYWORDS:Vectorspacemodel;Textfeature-weight;Chinesewordorder1引言特征词为基础,进行相似度计算,主要的方法有GerardSal-句子相似度计算在自然语言处理方面的各个领域都有ton提出向量空间法、潘谦红、王炬、史忠植提出基于属着广泛的应用。例如在自动问答系统中常问问题库的检性论计算文本相似度方法等。基于特征词的句子相似度计索,如何根据用户的提问在知识库中查找到对应的答案,通算方法只是在句子的特征结构方面进行计算,没有考
7、虑词语过计算提问的句子和知识库中对应的句子之间相似度来解蕴含的语义信息,对于同义词以及一词多义情况计算效果不决的。在信息过滤技术中],通过句子相似度计算,可自动佳,使得相似度计算的准确度不高。过滤掉用户可能并不想看到的信息。同样,在机器翻译基于语义信息的相似度计算方法通过计算句子的词语中、自动文摘中均用到该技术,以获取需要的信息。相似度来得到句子的相似度。句子词语的相似度通过计算目前,主要的文本相似度方法有基于特征词方法、基于词语对应的概念在概念层次体系结构中的距离得到,概念间语义信息方法和基于句法结构方法,但是这些方法均存在一的距离又由概念的上下位、同义和反义关
8、系得到。基
此文档下载收益归作者所有