基础语言类问题求解关键技术研究

基础语言类问题求解关键技术研究

ID:35179176

大小:2.59 MB

页数:75页

时间:2019-03-20

基础语言类问题求解关键技术研究_第1页
基础语言类问题求解关键技术研究_第2页
基础语言类问题求解关键技术研究_第3页
基础语言类问题求解关键技术研究_第4页
基础语言类问题求解关键技术研究_第5页
资源描述:

《基础语言类问题求解关键技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士学位论文基础语言类问题求解关键技术研究RESEARCHONKEYTECHNOLOGYOFTHEBASICLANGUAGEPROBLEMSOLVING张毅哈尔滨工业大学2016年6月国内图书分类号:TP391.2学校代码:10213国际图书分类号:681.37密级:公开工学硕士学位论文基础语言类问题求解关键技术研究硕士研究生:张毅导师:刘挺教授申请学位:工学硕士学科:计算机科学与技术所在单位:计算机科学与技术学院答辩日期:2016年6月授予学位单位:哈尔滨工业大学ClassifiedIndex:TP391.2U.D.C:681.37D

2、issertationfortheMasterDegreeinEngineeringRESEARCHONKEYTECHNOLOGYOFTHEBASICLANGUAGEPROBLEMSOLVINGCandidate:ZhangYiSupervisor:Prof.LiuTingAcademicDegreeAppliedfor:MasterofEngineeringSpeciality:ComputerScienceandTechnologyAffiliation:SchoolofComputerScienceandTechnologyDat

3、eofDefence:June,2016Degree-Conferring-Institution:HarbinInstituteofTechnology哈尔滨工业大学硕士学位论文摘要本课题来源于国家863计划项目——语言类问题求解和答案生成关键技术及系统。该项目具体目标是解决语言类问题,即高考语文题。其中,基础语言类问题主要分为三种:字级别,词级别以及句子级问题,字级别问题主要是判断字音字形正误问题,词级别主要是字形字义相近的词语之间的甄别,句子级主要是处理多种病句问题。判断字音字形正误与高考语文选择题目中的“正确字音字形判断题”对应

4、。本课题将判断字音字形正误建模为字音字形检索问题,设计并实现了一种多资源融合的策略。对于字音问题,本课题使用的资源包括:1)字音词典;2)大规模文本。对于字形问题,本课题使用的资源包括:1)字形词典;2)分词模型。实验结果表明,多资源融合的方法取得了75.4%的判断正误准确率。相对仅使用词典的基线模型,这一方法获得了5.2%的准确率提升。形近词、近义词词语甄别问题与高考语文选择题目中的“正确词语选择题”对应。本课题将形近词、近义词词语选择问题建模为判断句子不同流畅度问题。本课题使用语言模型建模句子的流畅程度,分别尝试使用循环神经网络语言

5、模型(RNNLM)以及N-元语言模型(N-gram)对句子流畅度进行建模。本课题的实验评价方法是计算选择正确词语的准确率,实验结果表明两种语言模型性能接近。RNNLM取得到了63.4%的准确率,N-gram取得了65.2%的准确率。病句识别与高考语文题中“病句选择的问题”对应。本课题根据病句的语法特征将其分为十种类型,其中最常见的是搭配不当以及语序不当类型病句。本课题将搭配不当建模为是否有语病的分类问题。针对搭配不当病句的识别问题,本课题提出了一种基于依存句法分析的搭配不当病句识别方法。实验结果表明依存信息的特征显著提升了病句识别的准确

6、率并达到55.5%的准确率。针对语序不当的识别问题,本课题提出了基于编码器-解码器(encoder-decoder)的识别方法,模型输入含语序不当错误的句子,输出为语序正确的句子。本课题选用的评测方法是计算生成句子的BLEU值,最后达到了12.76。关键词:答题机器人;词语选择;病句检测;搭配不当;语序不当-I-哈尔滨工业大学硕士学位论文AbstractThissubjectcomesfromthenational863project:thekeytechnologyandsystemsoflanguageproblemsolvinga

7、ndanswersgeneration.Thespecificobjectiveoftheprojectistosolvekindsoflanguage-orientedproblem,namelyChineseCollegeentrancelanguageexamination.Languageproblemsaremainlydividedintothreecategories:thecharacterlevel,wordlevelandsentencelevelproblems.Thecharacterlevelismainlya

8、boutcheckwhetherthepronunciationandglyphisright.Thetokenlevelisaboutdiscriminatingdifferencesbetweenwor

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。