领域自适应的中文实体关系抽取研究

领域自适应的中文实体关系抽取研究

ID:23333129

大小:2.98 MB

页数:87页

时间:2018-11-07

领域自适应的中文实体关系抽取研究_第1页
领域自适应的中文实体关系抽取研究_第2页
领域自适应的中文实体关系抽取研究_第3页
领域自适应的中文实体关系抽取研究_第4页
领域自适应的中文实体关系抽取研究_第5页
资源描述:

《领域自适应的中文实体关系抽取研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士学位论文领域自适应的中文实体关系抽取研究RESEARCHONDOMAINADAPTIVECHINESEENTITYRELATIONEXTRACTION王莉峰哈尔滨工业大学2011年6月国内图书分类号:TP391.2学校代码:10213 国际图书分类号:681.37密级:公开工学硕士学位论文领域自适应的中文实体关系抽取研究硕士研究生:王莉峰导师:秦兵教授申请学位:工学硕士学科:计算机科学与技术所在单位:计算机科学与技术学院答辩日期:2011年6月授予学位单位:哈尔滨工业大学ClassifiedIndex:TP391.2U.D.C:681.37DissertationfortheM

2、asterDegreeinEngineeringRESEARCHONDOMAINADAPTIVECHINESEENTITYRELATIONEXTRACTIONCandidate:WangLifengSupervisor:Prof.QinBingAcademicDegreeAppliedfor:MasterofEngineeringSpeciality:ComputerScienceandTechnologyAffiliation:SchoolofComputerScienceandTechnologyDateofDefence:June,2011Degree-Conferring-

3、Institution:HarbinInstituteofTechnology哈尔滨工业大学工学硕士学位论文摘要随着计算机的快速普及,互联网的迅猛发展,各式各样的信息呈爆炸式增加,如何从海量数据中准确、快速地获取用户真正需要的信息成为人们关注的话题。信息抽取的主要目的是将非结构化的自然语言文本转化成半结构化或结构化的数据,方便人们准确、快速地获取关键信息。关系抽取作为信息抽取的子任务和关键技术之一,已经逐渐发展成为众多自然语言处理任务的重要支撑技术。传统的关系抽取方法需要预先定义关系类型,依赖于大量人工标注的训练 语料库,难以满足互联网海量信息处理的需求。本文提出了一种新的关系抽取

4、 研究框架,探索最大程度地避免人工参与,且具有较强领域自适应能力的关系 抽取解决方案,提高关系抽取的自动化程度,增强可移植性。首先,通过分析关系实例上下文语言现象发现,绝大多数产生语义关系的 实体对均可以由其上下文中的一般动词和一般名词触发描述(统称为特征 词),由此,本文提出基于特征词聚类的方法,在一定规模的未标注语料库上 实现关系类型的自动发现,实验中达到了与人工预定义关系类型相当的效果; 其次,针对大量待处理的关系类型,本文提出基于WebMining的关系种子集 自动抽取方法,充分利用搜索引擎收集和处理大规模真实数据的能力和优势,抽取具有代表性的实体关系核心网,经过在选取的9

5、种关系类型上进行实验, 平均准确率达到了90.91%;再次,根据中文语言学特点,本文定义了启发式 上下文模式及其泛化策略,引入Bootstrapping方法,以实体关系核心网作为 输入,在未标注语料库上迭代地挖掘关系描述模式,并抽取关系元组,通过对采样的关系元组进行人工评价,平均准确率达到了88.24%,满足了实用系统的需求。最后,本文设计并实现了领域自适应的关系抽取平台XInfo,在该平台 上,研究人员可以专注于算法的改进和研究,快速进行实验,为自然语言处理 相关领域研究和应用提供支持。另外,本文以人物社会关系抽取作为应用任务,开发了一套人物社会关系在线演示系统,以直观、清晰的方

6、式展示关系抽取效果。关键词关系抽取;领域自适应;关系类型发现;关系种子抽取;关系描述模式挖掘-I-哈尔滨工业大学工学硕士学位论文AbstractWiththerapidpopularizationofcomputers,andtheInternet'srapiddevelopment,theamountofinformationisbecomingmoreandmore.So,howtoquicklyandaccuratelyobtainnecessaryinformationfromthemassivedatabecomesatopicofconcern.Themainpurpo

7、seofinformationextractionistotransformunstructurednaturallanguagetextintosemi-structuredorstructureddata,easyforpeopletoobtainkeyinformationquicklyandaccurately.Relationextractionasoneofthesubtaskandkeytechnologyofinformationextraction,

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。