汉语句子相似度计算方法与其应用的研究

汉语句子相似度计算方法与其应用的研究

ID:32235070

大小:1.99 MB

页数:62页

时间:2019-02-02

汉语句子相似度计算方法与其应用的研究_第1页
汉语句子相似度计算方法与其应用的研究_第2页
汉语句子相似度计算方法与其应用的研究_第3页
汉语句子相似度计算方法与其应用的研究_第4页
汉语句子相似度计算方法与其应用的研究_第5页
资源描述:

《汉语句子相似度计算方法与其应用的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、河南大学研究生硕士学位论文第1页摘要在中文信息处理中,汉语句子的相似度计算是一项基础而又重要的工作,它直接决定着某些领域的研究发展状况。例如,自动问答系统、基于实例的机器翻译、信息检索、自动文摘等领域,句子相似度计算都是一个非常关键的问题,长期以来一直是人们研究的一个热点和难点。本文在研究汉语句子相似度的过程中,钏’对汉语由语素构成词语,由词语构成语句的特点,分别对汉语中的义原、词语、句子三个层次的相似度计算进行r研究。这三者层次不同,但是联系密切,由部分构成一个有机的整体,整个计算过程每一步都利用上一步的计算结果。本文主要有如下几个方面的研究成果:1.研究了汉语语句的问句意图,并提出问句意图

2、的提取方法。问句意图的提取是以疑问句为研究对象的,问旬类型不同,提取意图的方法也会有所差异。本文的研究是处于问答系统背景下,分析语料根据不同疑问句出现的频率,把问句类型分为三类:特指问旬,正反问旬,旬末语助词问旬,从而根据问句的类型针对性的提出相对应的问句意图提取方法。2.研究了汉语词语语义相似度及其计算方法,利用知网提供的丰富语义信息,计算义原相似度,进一步计算基于知网的词语语义相似度。词语相似度是本文句子相似度计算的基础。3.提出多层次多种特征融合的汉语句子相似度计算方法。该算法从多个角度考察语句的相似性,充分利用句子含有的目标层、结构层、语义层等丰富信息,从句子中提取问句意图、关键词集、

3、句子长度、名词个数、动词个数、专有名词个数等多种特征。运用一种简单有效的融合手段,进而获取综合特征,利用综合特征确定句子相似度的值。4.以金融领域自然语言问答系统的模型为实例,体现句子相似度计算在具体应用领域的重要性。这一课题的研究及其成果对于中文信息处理中的多种领域,都将具有一定的参考价值和良好的应用前景。关键词:自然语言处理;问答系统:句子相似度;意图提取;知网河南大学研究生硕士学位论文第1II页AbstractChinesesentencesimilaritycomputationisanessentialtaskandwidelyusedintheChineseinformationp

4、rocessing.ItCandecidethedevelopmentofcertainrelatedresearchdirections.Forexample,intheareaofautomaticquestion-answering,EMBT,informationretrievaletc,howtocomputethesentencesimilarityisOneofthemostimportantproblemwhichisalsoahotspotandverydifficultythatpeoplestudyforalongtime.DuringtheresearchofChine

5、sesentencesimilaritycomputation,thesimilaritycomputationthatwehavestudiedisfocusonthreelevels:sememe,wordandsentence.ItisbasedonthefeatureofChinese,thatisthewordiscomposedofmorphemes,andthesentenceiscomposedofwords.Althoughthreelevelsaredifferent,fromthesimilaritycomputationtoitsapplications,itisagr

6、aduallyprocesswithcloserelationshipasawhole.Themaininnovativeachievementsofthispaperareasfollows:First,theextractionmethodofquestionintentionispresentedwhichisbasedontheresearchofquestionintention.Questionintentionisthesurfacemeaningwhichthequestionwantstoexpress,andequalstothefeatureofsentenceobjec

7、tlayer.Analyzingmuchcorpus,thequestionisdividedintothreetypes:question-wordquestions,A-not-Aquestions,sentence-finalparticlesentences.Differentquestiontypeshavedifferentwaysofextractintention,accordin

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。