文本相似度的计算的研究.docx

ID：51072682

大小：688.21 KB

页数：39页

时间：2020-03-18

资源描述：

《文本相似度的计算的研究.docx》由会员上传分享，免费在线阅读，更多相关内容在工程资料-天天文库。

1、摘要在屮文信息处理屮，文本和似度的计算广泛应用于信息检索，机器翻译，自动问答系统，文木挖掘，论文抄袭识别，其屮的屮文分词环节在搜索引擎，自然语言的处理屮起着至关重要的作用，长期以來一直是人们研究的热点和难点。对于屮文文本相似度计算，分词是呈础和前提，采用高效的分词算法能够极人地提高文本相似度计算结果的准确性；分词小最关键的问题是消歧与未登陆词的识别，本文采用词性转换概率表来进行分词的消歧处理，使用有向拓补图的最短路径来进行分词的处理，得到了比较好的效果。在计算相似度的过程屮使用了词频与词序相结合的方法，使用TF-TDF特征法和二

2、部图的最大匹配來计算词频的柑似度，但这种方法在颠倒句子屮词的顺序时也会得到相同的相似度，必须使用一种能区分词序的算法，马尔科夫模型的状态转移矩阵表示-•个词转移到另一词的概率（本文把单个词语作为马尔科夫模型屮的一个状态来看待），后在文本相似度计算屮，使用一种将最长公共子序列、马尔科夫状态转移矩阵和TF.IDF相结合的算法得到结果。本文使用现代汉语词典与紫光输入法屮提供的文本格式词库，來制作适合本项H用的特定格式的索引词库，极大地提高了分词的效率，词性的标注使用1998年人民日报的词性标注，最后测试使用新浪，搜狐，人民网，新华网等

3、各大新闻网站的文本新闻作为测试数据集得到了较好的效果，较准确地统计了两文木文件的相同语数，相似度，并高亮显示相同的部分数据。关键词：文本相似度；马尔科夫模型；向量空间模型」卩文分词；特征向量AbstractIntheinformationprocessing,thecalculationoftextsimilarityhasbeenappliedwidelyinretrieval,machinetranslation,questionansweringsystems,textmining,papercopyidentify,wh

4、ichtheaspectsofChinesewordsplaysacrucialroleinthesearchengineandnaturallanguageprocessing,haslongbeenafocusforresearchersanddifficult.FortheChinesetextsimilaritycomputing,wordsegmentationisthefoundationandprerequisite,theefficientsegmentationalgorithmisusedtogreatlyi

5、mprovetheaccuracyoftextsimilaritycalculations;Themostcriticalissueofwordsegmentationisdisambiguationandrecognitionofnotlandingword.Thetextusespartfospeechtransitionprobab订itytableforworddisambiguationprocessing,usefocomplementtotheextensionoftheshortestpathtocarryout

6、wordprocessing,havebeenfairlygoodresuIts.WeusedthemethodofcombiningtheuseofTF-IDFfeaturesoflawandthemaximumbipartitegraphmatchingtocalculatethersimilarityofwordfrequency,however,whichmayreturnthesamesimilarityofwordwithreversingorderofwordsinsentences.Therefore,wesho

7、uldusesthemethodwhichcandistinguishtheorderofthesentence.ThestatetransitionmatrixofMarkovmodelrepresenttheprobabilityofonewordtoanotherword(thetexttakesawordasastateofMarkovmodel).Andthencombinethelongestcommonsubsequence,MarkovstatetransitionmatrixandTF.IDFtocalcula

8、tetheresult.Tthasgreatlyimprovedtheefficiencyofwordsegmentatio门withthespecificformatoftheindexvocabularycreatedfortheproject,whichg

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 39



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

文本相似度的计算的研究.docx

文本相似度的计算的研究.docx

相关文章

相关标签