欢迎来到天天文库
浏览记录
ID:34954738
大小:1.73 MB
页数:56页
时间:2019-03-15
《基于文本蕴含识别的答案验证技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、硕士学位论文基于文本蕴含识别的答案验证技术研究RESEARCHONANSWERVALIDATIONTECHNOLOGYBASEDONTEXTUALENTAILMENTRECOGNITION赵得志哈尔滨工业大学2018年6月国内图书分类号:TP183学校代码:10213国际图书分类号:004.8密级:公开工学硕士学位论文基于文本蕴含识别的答案验证技术研究硕士研究生:赵得志导师:张宇教授申请学位:工学硕士学科:计算机科学与技术所在单位:计算机科学与技术学院答辩日期:2018年6月授予学位单位:哈尔滨工业大学ClassifiedIndex:TP183
2、U.D.C:004.8DissertationfortheMasterDegreeinEngineeringRESEARCHONANSWERVALIDATIONTECHNOLOGYBASEDONTEXTUALENTAILMENTRECOGNITIONCandidate:ZhaoDezhiSupervisor:Prof.ZhangYuAcademicDegreeAppliedfor:MasterofEngineeringSpeciality:ComputerScienceandTechnologyAffiliation:SchoolofCompu
3、terScienceandTechnologyDateofDefence:June,2018Degree-Conferring-Institution:HarbinInstituteofTechnology哈尔滨工业大学硕士学位论文摘要近年来随着人工智能的火热,自动问答技术得到了广泛的关注。问答系统和传统的搜素引擎根本性的不同在于问答系统可以返回给用户精确的答案,而不是候选的一些列表,为了确保答案的准确,问答系统在返回答案给用户前需要对返回结果进行验证,如何应用文本蕴含识别的方法进行答案验证即为本课题的主要研究内容。因为缺乏大规模的中文蕴含语料
4、,为应用基于深度学习的文本蕴含识别方法,本课题首先采用百度翻译翻译英文的SNLI语料到中文,构建中文的蕴含语料。然后我们根据翻译的中文蕴含语料训练文本蕴含识别的模型。本课题分别训练了三种基于匹配编码的文本蕴含识别模型,应用于后面答案验证技术的研究。问答系统的返回结果主要分为词汇级和句子级的答案,本课题针对词汇级和句子级的答案分别进行研究。针对词汇级的答案,答案可能来自于知识库、百度知道,我们采用知识库三元组拼接、知道问句和答案改写成陈述句做为蕴含前件,问题和答案改写为陈述句做为蕴含后件判断蕴含进行答案验证。针对句子级的答案,答案可能来自百度知道
5、和百度百科,采用答案作为蕴含前件判断蕴含、由答案生成问题再判断问句间的蕴含关系进行答案验证。此外,有些问答系统返回的答案既不是词汇也不是句子,而是更长的段落,同时进行段落级答案验证的研究。因为段落一般较长,难于建模,所以采用基于文本蕴含识别对齐和关键词的方法进行段落级的答案验证。在评价方面,需要构建词汇级和句子级的答案测试集,基于哈尔滨工业大学社会计算与信息检索研究中心问答组的深度问答系统构建。同时使用哈尔滨工业大学社会计算与信息检索研究中心问答组的在线问答系统构建评价段落级答案验证的测试集。根据测试集,评价文本蕴含识别应用于答案验证的效果以及
6、对问答系统的ᨀ升效果。关键词:答案验证;文本蕴含;问答系统;自然语言处理;人工智能-I-哈尔滨工业大学硕士学位论文AbstractInrecentyears,withthefierynessofartificialintelligence,automaticquestion-answeringtechniqueshavereceivedextensiveattention.Thefundamentaldifferencebetweenaquestion-answeringsystemandatraditionalsearchengineisth
7、atthequestion-answeringsystemcanreturnaccurateanswerstotheuserratherthanalistofcandidates.Toensuretheaccuracyoftheanswer,thequestion-answeringsystemneedstoverifythereturnedresultsbeforereturningtheanswerstotheuser.Howtoapplytextualentailmentrecognitionmethodtoverifytheanswer
8、isthemainresearchcontentofthispaper.Becauseofthelackoflarge-scaleChineseent
此文档下载收益归作者所有