融入背景知识的篇章语义分析方法研究

融入背景知识的篇章语义分析方法研究

ID:35096808

大小:5.90 MB

页数:125页

时间:2019-03-17

融入背景知识的篇章语义分析方法研究_第1页
融入背景知识的篇章语义分析方法研究_第2页
融入背景知识的篇章语义分析方法研究_第3页
融入背景知识的篇章语义分析方法研究_第4页
融入背景知识的篇章语义分析方法研究_第5页
资源描述:

《融入背景知识的篇章语义分析方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、博博博士士士学学学位位位论论论文文文融入背景知识的篇章语义分析方法研究ENCODINGBACKGROUNDKNOWLEDGEINTODISCOURSEANALYSIS张张张牧牧牧宇宇宇哈哈哈尔尔尔滨滨滨工工工业业业大大大学学学2016年年年3月月月国内图书分类号:TP391.1学校代码:10213国际图书分类号:004.91密级:公开工工工学学学博博博士士士学学学位位位论论论文文文融入背景知识的篇章语义分析方法研究博士研究生:张牧宇导师:秦兵教授申请学位:工学博士学科:计算机科学与技术所在单位:计算机科学与技术

2、学院答辩日期:2016年3月授予学位单位:哈尔滨工业大学ClassifiedIndex:TP391.1U.D.C:004.91DissertationfortheDoctoralDegreeinEngineeringENCODINGBACKGROUNDKNOWLEDGEINTODISCOURSEANALYSISCandidate:MuyuZhangSupervisor:Prof.QinBingAcademicDegreeAppliedfor:DoctorofEngineeringSpecialty:Comput

3、erScienceandTechnologyAffiliation:SchoolofComputerScienceandTechnologyDateofDefence:March,2016Degree-Conferring-Institution:HarbinInstituteofTechnology摘要摘要篇章语义分析以获取篇章级语义信息为目标,以篇章语义结构分析和篇章语义内容分析为主要内容,是一个新兴的研究热点。目前,篇章语义分析研究主要关注如何挖掘原文内容语义信息。实际上,根据认知心理学中的联想主义理论,原文

4、并不能脱离背景知识而存在,缺少背景知识必定会影响对原文语义的分析与理解。为了更好地进行篇章语义分析,融入背景知识是必不可少的辅助手段。本文首先在背景知识获取方面切入,ᨀ出基于搜索引擎的篇章背景知识联想模型,并在其基础上进一步改进ᨀ出基于分布式语义的篇章背景知识联想模型,赋予机器获取背景知识的能力;随后,将背景知识融入篇章语义分析研究最重要的两个方面:篇章语义结构分析和篇章语义内容分析,并相应地探索了篇章语义关系分析和篇章语义连贯性分析两个子问题,其中篇章语义关系分析研究以获取篇章语义结构信息为目标,篇章语义连贯

5、性分析则以篇章语义内容信息为分析对象。本文主要研究内容可概括如下:1.基于搜索引擎的篇章背景知识联想研究本文ᨀ出基于搜索引擎的篇章背景知识联想模型,采用“Subject,Predicate,Object”(主语,指示词,宾语)三元组作为知识表示方案,从人工构建知识库和自动抽取知识库中引入背景知识候选。本文ᨀ出基于三元组关联网络的篇章表示方案,将背景知识候选和原文信息统一表示起来,并进一步引入搜索引擎作为资源,ᨀ出基于权重传播的排序模型计算背景知识候选与原文的相关性,依此对背景知识候选进行排序。在评价方面,我们采

6、用排序问题的方式评估模型性能,并采用人工标注的方式判定结果。实验结果显示:本文最终获得MAP值为0.676,P@20值为0.417,取得了较好的性能。2.基于分布式语义的篇章背景知识联想研究为了弥补上文方法计算效率低、评价不够完整等缺点,本文进一步ᨀ出基于分布式语义的篇章背景知识联想模型。本文利用主题模型和深度学习等方法将背景知识候选和原文信息同时转换为质密的实值向量,并使用向量运算代替搜索引擎计算结点之间的语义相关度。本文随后采用改进的权重传播模型对背景知识候选进行排序,并选出相关性较高的背景知识引入文本分类

7、任务中,通过基于任务的评价方式验证背景知识联想模型的分析效果。实验结果显示:该模型在背景知识引入上取得的MAP值为0.649,P@5值为0.5596;同时,通过引入背景知识使得文本分类模型性能ᨀ高2.55%。-I-哈尔滨工业大学工学博士学位论文3.融入背景知识的中文篇章语义关系研究之后,本文将背景知识融入篇章语义分析的重要方面:篇章语义结构分析,并通过探索篇章语义关系分析任务来获取篇章语义结构信息。考虑到中文篇章关系分析尚无成熟的任务定义和语料资源,本文首先ᨀ出面向中文的篇章关系任务及关系类型体系,并探索大规模

8、篇章关系语料资源的构建方法,ᨀ出句群、复句、分句的三层标注方案,构建包含1096篇文档、超过两万个实例的高质量中文资源。随后,本文融合背景知识信息,探索了显式篇章关系识别和隐式关系识别,并将结果应用于倾向性分析任务中,取得了较好的效果,同时为后续研究ᨀ供了资源基础和模型参考。4.融入背景知识的篇章语义连贯性分析研究本文在篇章语义关系分析的基础上更进一步,将背景知识融入篇章语义分析的另一

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。