探究开放域阅读理解关键技术研究

探究开放域阅读理解关键技术研究

ID:35150979

大小:2.05 MB

页数:142页

时间:2019-03-20

探究开放域阅读理解关键技术研究_第1页
探究开放域阅读理解关键技术研究_第2页
探究开放域阅读理解关键技术研究_第3页
探究开放域阅读理解关键技术研究_第4页
探究开放域阅读理解关键技术研究_第5页
资源描述:

《探究开放域阅读理解关键技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、博士学位论文开放域阅读理解关键技术研究KEYTECHNOLOGIESOFREADINGCOMPREHENSIONFOROPEN-DOMAIN张志昌哈尔滨工业大学2010年1月国内图书分类号:TP391.2学校代码:10213国际图书分类号:681.37密级:公开工学博士学位论文开放域阅读理解关键技术研究博士研究生:张志昌导师:李生教授副导师:刘挺教授申请学位级别:工学博士学科、专业:计算机应用技术所在单位:计算机科学与技术学院答辩日期:2010年1月授予学位单位:哈尔滨工业大学ClassifiedIndex:TP391.2U.D.C.:68

2、1.37DissertationfortheDegreeofD.EngKEYTECHNOLOGIESOFREADINGCOMPREHENSIONFOROPEN-DOMAINCandidate:ZhangZhichangSupervisor:Prof.LiShengAssociateSupervisor:Prof.LiuTingAcademicDegreeAppliedfor:DoctorofEngineeringSpecialty:ComputerApplicationTechnologyAffiliation:SchoolofComput

3、erScienceandTechnologyDateofDefence:January,2010Degree-Conferring-Institution:HarbinInstituteofTechnology摘要摘要自动的阅读理解技术一直是人工智能领域的研究方向之一。受1999年开始的TREC问答技术系列评测的推动,该研究也成为了自然语言处理领域新的研究热点。一方面,阅读理解技术研究可以检测和评估底层各项自然语言处理技术结合之后的整体性能,并从篇章的角度探究语言理解的技术和方法;另一方面,在基于海量文档集的开放域问答系统中,当系统返回的答

4、案发生错误时,由于系统的复杂性而难以对导致错误的原因进行准确定位和分析。针对这一问题,采用阅读理解的研究形式,将处理的语料规模限定在单篇文档,省去文档检索的处理过程,从而将研究的问题聚焦于用户问题分析和答案抽取。从自然语言处理领域已有的关于开放域阅读理解技术的研究来看,现有的答案抽取技术仍然较为浅层,答案抽取的性能尚有提升空间。着眼于提高和改进开放域阅读理解问题分析和答案抽取技术的性能,本文主要进行了四个方面的研究工作,具体内容如下:1.问题分类是阅读理解和开放域问答系统中的重要部分,其性能直接制约着最终答案抽取的性能。由于用户提出的问题一

5、般较短,分类时可用的特征较少,因此训练集的数据稀疏问题对分类性能的影响更为显著。针对该问题,本文提出一种基于线索词识别和训练集扩展的问题分类方法,首先识别出问题中对分类有影响的关键特征,然后利用Web数据的海量特点,从中自动挖掘能够改善训练集数据稀疏的扩展训练问题集。分类时,综合最近邻方法和SVM方法,最终提高了问题分类的性能。2.以篇章内的单个句子为单位,判别和抽取可回答用户问题的答案句时,简单的如词袋模型的词匹配方法性能有限。本文提出一种基于语法和语义树核的答案句抽取方法,在句子的句法和浅层语义分析的基础上,将句法结构树、浅层语义树、词

6、信息、句子上下文信息等多种特征结合起来,通过机器学习技术来判别和抽取篇章中的答案句。3.篇章内的各个句子之间通过逻辑上的语篇关联来对某个实体或者事件进行多方面的事实描述,单个句子本身经常不能包含实体或事件的全部信息。当用户问题涉及篇章中多个句子的内容时,独立地判断篇章内某一句子是否包含有答案的方法有时难以识别出正确的答案句。本文因此提出一种基─I─哈尔滨工业大学工学博士学位论文于概念关系图匹配的答案抽取方法,首先构建关于篇章以及用户问题的概念关系图,然后在篇章的概念关系图中抽取和问题概念关系图能最好匹配的子图,再从该子图中抽取概念节点并形成

7、答案。由于篇章概念关系图的构建是利用篇章内全部句子的概念及其它们之间的句法和语义关系,多个句子中相同的概念及其关系通过概念关系图从整体上连接起来,因此能够改善以单个句子为答案识别单位的方法的性能。4.针对复杂的原因型问题,提出一种基于话题和修辞识别的答案句抽取方法,一方面利用问题中的词、词之间的语义信息,用来在篇章中识别能够对应问题话题的句子,另一方面利用篇章内句子之间的各种语言修辞特征,以及从海量文档集中挖掘的词间因果关系信息,用来综合判别句子之间是否存在着逻辑上的因果关系。通过机器学习技术将这两方面结合起来,判别篇章内的每个句子属于原因

8、型问题的答案句的概率。关键词阅读理解;问题分类;答案抽取;树核;概念图匹配;修辞识别─II─AbstractAbstractAutomaticreadingcomprehensi

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。