基于分段融合的藏文文本相似度计算方法研究

基于分段融合的藏文文本相似度计算方法研究

ID:35182001

大小:5.76 MB

页数:60页

时间:2019-03-21

基于分段融合的藏文文本相似度计算方法研究_第1页
基于分段融合的藏文文本相似度计算方法研究_第2页
基于分段融合的藏文文本相似度计算方法研究_第3页
基于分段融合的藏文文本相似度计算方法研究_第4页
基于分段融合的藏文文本相似度计算方法研究_第5页
资源描述:

《基于分段融合的藏文文本相似度计算方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、39密级:公开1分类号:TP曝《兴A緣乂聲工学硕±学位论文题目:基于分段盛合的藏文文本相似度计算方法研究姓名:部明强11740475学号:Y3中国民族信息巧乂研巧院学院:专业:计笛化软件与理论研巧方向:大数据处理导师:单广荣教授-二〇—六年五月西北民族大学硕±学位论文ResearchonthecalculationmethodofsimilaritybasedonthefusionofTibetantext

2、sementgAThesisSubmited抗r化eDereeofMastergCandidate:WuMingqiangSupervisor:Prof.ShanGuangrongNorthwestUniversityforNationalitiesLanzhouChina,西北民族大学硕±学位论文关于学位论文使用授权的声明本人在导师指导下所完成的论文及相关的作品,知识产权归属西北民族大学。本人完全了解西北民族大学有关保存、使用学位论文的规定,同意学校

3、保存或向国家有关部口或机构送交论文的纸质版和电レ子版,允许论文被查阅和借阅;本人授权西北民族大学可ッ将本学位论文的全部或部分内容编入有关数据库进行检索,可La采用任何复制手段保存和汇编本学位论文。本人离校后发表、使用学位论文或与该论文直接相关的学术论文或成果时一,第署名单位仍然为西北民族大学。保密论文在解密后应遵守此规定。八、论文作者签名:明讀导师签名;期:如八爲f句巧日、原创性声明本人郑重声明:本人所呈交的学位论文,是在导师的指导下独立进行研究所取得的成果。学位论文中凡引用他人己经

4、发表或未发表的成果、数据、观点等,均Ll明确注明出处。陈文中己经注明引用的内。容外,不包含任何其他个人或集体已经发表或撰写过的科研成果对本文的研究成果做出重要贡献的个人和集体,均己在文中明确方式标明。本声明的法律贵任由本人承担。论文作者签名:努)喊蘇:石口/^章云片白、日期I西北民族大学硕±学位论文摘要相似度计算是数据挖掘、机器翻译、自动问答、查询检索等信息处理领域的基础技术。在藏文信息处理领域中,用于相似度计算的方法少之又少。本文在分析己有的中文分段融合相似度计算方法基

5、础上,提出了藏文分段融合的相似度计一个段落近似地看作一算方法:该方法段落为单位,把文本中的每个短文本,通过计算短文本与短文本的相似度,再综合得到长文本与长文本之间的相似度,这样就得到了两篇藏文文本的相似度值值。文中采取了レッ下技术路线和方法:对给定的两篇藏文文本,分别经过去除停用词、特征降维处理,再筛选出每个段落中指定词性的藏文词语,这样最终得到一TF了两篇藏文文本中符合条件的所有段落;接着进步计算得到特征词个数及一一些参数计算出各值,同时对TF值进行归化处理然后利用TF值及相关的;个段落中词

6、语的权值;最后利用各个段落的极值计算出两篇文本中段落与段落的一相似度值并形成相似度矩阵,经过系列精确化处理最终计算出该两篇藏文文本的相似度值。一接下来将在计算藏文文本相似度基础上,进步扩展到藏文句子相似度的计算,尝试计算藏文句子的相似度,再融合为段落相似度,最后由段落相似度融合为文本相似度。同时尝试建立更复杂的相似度模型系统,该系统能够把藏文文本中相似性的句子找出来,并旦能够准确的列举出哪些藏文句子具有相似性。本文根据准确率和召回率及Fi值对实验结果进行了评估。由于实验采用一的语料为闭合语料,

7、只能测试个大概化。本文从分好类别的语料库中随机抽取了150篇测试文本,Fi测试化达到了67.86%,介于准确率和召回率之间,准确率和召凹率大致相乃一。实验测试结果表明本文的方法有定的效果。:藏文文本,相关键词,特征词个数,权值似度计算,分段融合II西化民族大学硕±学位论文AbstractSimilaritycomputingisthebasictechnologyofinformationprocessing,suchasdatamining,MachineTr

8、anslation,automaticquestio打answering,queryretrievalandsoon.InthefieldofTibetaninformationrocessinforsimilaritcalculationmethod

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。