资源描述:
《文本相似度的计算的研究.docx》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、摘要在屮文信息处理屮,文本和似度的计算广泛应用于信息检索,机器翻译,自动问答系统,文木挖掘,论文抄袭识别,其屮的屮文分词环节在搜索引擎,自然语言的处理屮起着至关重要的作用,长期以來一直是人们研究的热点和难点。对于屮文文本相似度计算,分词是呈础和前提,采用高效的分词算法能够极人地提高文本相似度计算结果的准确性;分词小最关键的问题是消歧与未登陆词的识别,本文采用词性转换概率表来进行分词的消歧处理,使用有向拓补图的最短路径来进行分词的处理,得到了比较好的效果。在计算相似度的过程屮使用了词频与词序相结合的方法,使用TF-TDF特征法和二
2、部图的最大匹配來计算词频的柑似度,但这种方法在颠倒句子屮词的顺序时也会得到相同的相似度,必须使用一种能区分词序的算法,马尔科夫模型的状态转移矩阵表示-•个词转移到另一词的概率(本文把单个词语作为马尔科夫模型屮的一个状态来看待),后在文本相似度计算屮,使用一种将最长公共子序列、马尔科夫状态转移矩阵和TF.IDF相结合的算法得到结果。本文使用现代汉语词典与紫光输入法屮提供的文本格式词库,來制作适合本项H用的特定格式的索引词库,极大地提高了分词的效率,词性的标注使用1998年人民日报的词性标注,最后测试使用新浪,搜狐,人民网,新华网等
3、各大新闻网站的文本新闻作为测试数据集得到了较好的效果,较准确地统计了两文木文件的相同语数,相似度,并高亮显示相同的部分数据。关键词:文本相似度;马尔科夫模型;向量空间模型」卩文分词;特征向量AbstractIntheinformationprocessing,thecalculationoftextsimilarityhasbeenappliedwidelyinretrieval,machinetranslation,questionansweringsystems,textmining,papercopyidentify,wh
4、ichtheaspectsofChinesewordsplaysacrucialroleinthesearchengineandnaturallanguageprocessing,haslongbeenafocusforresearchersanddifficult.FortheChinesetextsimilaritycomputing,wordsegmentationisthefoundationandprerequisite,theefficientsegmentationalgorithmisusedtogreatlyi
5、mprovetheaccuracyoftextsimilaritycalculations;Themostcriticalissueofwordsegmentationisdisambiguationandrecognitionofnotlandingword.Thetextusespartfospeechtransitionprobab订itytableforworddisambiguationprocessing,usefocomplementtotheextensionoftheshortestpathtocarryout
6、wordprocessing,havebeenfairlygoodresuIts.WeusedthemethodofcombiningtheuseofTF-IDFfeaturesoflawandthemaximumbipartitegraphmatchingtocalculatethersimilarityofwordfrequency,however,whichmayreturnthesamesimilarityofwordwithreversingorderofwordsinsentences.Therefore,wesho
7、uldusesthemethodwhichcandistinguishtheorderofthesentence.ThestatetransitionmatrixofMarkovmodelrepresenttheprobabilityofonewordtoanotherword(thetexttakesawordasastateofMarkovmodel).Andthencombinethelongestcommonsubsequence,MarkovstatetransitionmatrixandTF.IDFtocalcula
8、tetheresult.Tthasgreatlyimprovedtheefficiencyofwordsegmentatio门withthespecificformatoftheindexvocabularycreatedfortheproject,whichg