文本相似度的计算的研究.docx

文本相似度的计算的研究.docx

ID:51072682

大小:688.21 KB

页数:39页

时间:2020-03-18

文本相似度的计算的研究.docx_第1页
文本相似度的计算的研究.docx_第2页
文本相似度的计算的研究.docx_第3页
文本相似度的计算的研究.docx_第4页
文本相似度的计算的研究.docx_第5页
资源描述:

《文本相似度的计算的研究.docx》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、摘要在屮文信息处理屮,文本和似度的计算广泛应用于信息检索,机器翻译,自动问答系统,文木挖掘,论文抄袭识别,其屮的屮文分词环节在搜索引擎,自然语言的处理屮起着至关重要的作用,长期以來一直是人们研究的热点和难点。对于屮文文本相似度计算,分词是呈础和前提,采用高效的分词算法能够极人地提高文本相似度计算结果的准确性;分词小最关键的问题是消歧与未登陆词的识别,本文采用词性转换概率表来进行分词的消歧处理,使用有向拓补图的最短路径来进行分词的处理,得到了比较好的效果。在计算相似度的过程屮使用了词频与词序相结合的方法,使用TF-TDF特征法和二

2、部图的最大匹配來计算词频的柑似度,但这种方法在颠倒句子屮词的顺序时也会得到相同的相似度,必须使用一种能区分词序的算法,马尔科夫模型的状态转移矩阵表示-•个词转移到另一词的概率(本文把单个词语作为马尔科夫模型屮的一个状态来看待),后在文本相似度计算屮,使用一种将最长公共子序列、马尔科夫状态转移矩阵和TF.IDF相结合的算法得到结果。本文使用现代汉语词典与紫光输入法屮提供的文本格式词库,來制作适合本项H用的特定格式的索引词库,极大地提高了分词的效率,词性的标注使用1998年人民日报的词性标注,最后测试使用新浪,搜狐,人民网,新华网等

3、各大新闻网站的文本新闻作为测试数据集得到了较好的效果,较准确地统计了两文木文件的相同语数,相似度,并高亮显示相同的部分数据。关键词:文本相似度;马尔科夫模型;向量空间模型」卩文分词;特征向量AbstractIntheinformationprocessing,thecalculationoftextsimilarityhasbeenappliedwidelyinretrieval,machinetranslation,questionansweringsystems,textmining,papercopyidentify,wh

4、ichtheaspectsofChinesewordsplaysacrucialroleinthesearchengineandnaturallanguageprocessing,haslongbeenafocusforresearchersanddifficult.FortheChinesetextsimilaritycomputing,wordsegmentationisthefoundationandprerequisite,theefficientsegmentationalgorithmisusedtogreatlyi

5、mprovetheaccuracyoftextsimilaritycalculations;Themostcriticalissueofwordsegmentationisdisambiguationandrecognitionofnotlandingword.Thetextusespartfospeechtransitionprobab订itytableforworddisambiguationprocessing,usefocomplementtotheextensionoftheshortestpathtocarryout

6、wordprocessing,havebeenfairlygoodresuIts.WeusedthemethodofcombiningtheuseofTF-IDFfeaturesoflawandthemaximumbipartitegraphmatchingtocalculatethersimilarityofwordfrequency,however,whichmayreturnthesamesimilarityofwordwithreversingorderofwordsinsentences.Therefore,wesho

7、uldusesthemethodwhichcandistinguishtheorderofthesentence.ThestatetransitionmatrixofMarkovmodelrepresenttheprobabilityofonewordtoanotherword(thetexttakesawordasastateofMarkovmodel).Andthencombinethelongestcommonsubsequence,MarkovstatetransitionmatrixandTF.IDFtocalcula

8、tetheresult.Tthasgreatlyimprovedtheefficiencyofwordsegmentatio门withthespecificformatoftheindexvocabularycreatedfortheproject,whichg

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。