汉语语句相似度计算方法研究与应用

汉语语句相似度计算方法研究与应用

ID:33681260

大小:3.67 MB

页数:55页

时间:2019-02-28

汉语语句相似度计算方法研究与应用_第1页
汉语语句相似度计算方法研究与应用_第2页
汉语语句相似度计算方法研究与应用_第3页
汉语语句相似度计算方法研究与应用_第4页
汉语语句相似度计算方法研究与应用_第5页
资源描述:

《汉语语句相似度计算方法研究与应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、万方数据论文题目:汉语语句相似度计算方法研究与应用作者姓名:专业名称:指导教师:论文提交日期:论文答辩日期:授予学位日期:2Q!垒生量旦2Q!垒生鱼旦2目入学时间:研究方向:职称:旦一攫卫堕赴u一监一篓万方数据RESEARCHANDAPPLICATIoNFoRCHINESESENTENCESIMILARITYCALCULATIoNMETHoDADissertationsubmittedinfulfillmentoftherequirementsofthedegreeofMASTEROFPHILOSPHYShandongUniversityofScienceandTech

2、nologyLiufangSupervisor:AssociateProfessorZhaoWeidongCollegeofInformationScienceandEngineeringMay2014洲9舢7¨Ⅲ删●I栅7㈣7Ⅲ6舢2ⅢY万方数据声明本人呈交给山东科技大学的这篇工程硕士学位论文,除了所列参考文献和世所公认的文献外,全部是本人在导师指导下的研究成果。该论文资料尚没有呈交于其它任何学术机关作鉴定。AFFIRMATION硕士生签名:日Ideclarethatthisdissertation,submittedinfulfillmentoftherequire

3、mentsfortheawardofMasterofEngineeringScienceAdministrationinShandongUniversityofScienceandTechnology,iswholl)rmyOWUworkunitsreferencedofacknowledge·Thedocumenthasnotbeensubmittedforqualificationatanyotheracademicinstitute.Signature:Date:万方数据山东科技大学硕士学位论文摘要摘要汉语语句相似度计算在机器翻译、信息检索等很多领域都具有广泛的应

4、用前景,因此,一直是相关产业和学术界高度关注的重要的研究课题。目前,比较流行的汉语语句相似度计算方法主要是基于向量空间模型(VSM)和基于语义的方法,上述方法只考虑了句子的某一方面,比如词形或语义,难以取得满意的相似度计算结果。本文针对目前汉语句子相似度计算方法存在的主要问题,充分利用汉语语句的多种信息,研究多因素融合的汉语句子相似度计算方法,并将其应用到题库建设中,以避免大量相似试题的产生,保证题库的质量。主要的研究内容和成果如下。(1)提出了多因素融合的汉语句子相似度的计算方法。该方法将句子整体上分为三个层面:词形、语义、结构。首先单独计算每个层面的相似度,最后,将

5、这三个层面的相似度设置不同的权重,通过加权得到了整个句子的相似度计算公式。通过该方法能够更好的刻画句子的特征,从而能够取得更好的相似度计算结果。(2)设计了对比实验。在实验中,本文设置了三组词形、语义及结构相似度权重因子的组合,通过计算测试集中的句子与用户需要检索的句子之间的相似度,得到了相似度计算结果最好的权重因子组合。从准确率、召回率与Fl值三个方面,与传统的基于向量空间的相似度方法以及单纯的基于语义的相似度计算方法进行了对比实验,证明了本文方法的有效性。(3)设计了一个小型的题库管理系统。将本文中提出的多因素融合的句子相似度计算方法封装成一个搜索引擎,将其应用到题

6、库建设中,用户在向题库中输入题目时,首先检测该题目和题库中已有题目的相似度,并将相似度大于o.5的题目看成是相似的题目,说明题库中已存在类似的题目,并照相似度由大到小的顺利展示给用户,也从应用的角度验证了本文的价值。本文提出的多因素融合的句子相似度计算方法取得了较好的相似度计算结果,对于建设高质量的题库具有较高的应用价值,对于进一步研究汉语句子的相似度计算方法具有一定的理论参考价值。关键词:汉语句子,相似度,词形,语义,结构,多因素万方数据山东科技大学硕士学位论文摘要ABSTRACTChinesesentencesimilaritycomputingmachinetra

7、nslationinmanyfields,suchasinformationretrievalhasbroadapplicationprospects.Therefore,ithasbeenanimportantresearchtopicrelatedindustriesandtheacademichi.曲concem.Currently,themorepopularChinesesentencesimilaritycalculationmethodisthevectorspacemodel(VSM)andsemantic—basedap

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。