中文文本实体关系抽取方法研究

中文文本实体关系抽取方法研究

ID:35039280

大小:2.58 MB

页数:66页

时间:2019-03-16

中文文本实体关系抽取方法研究_第1页
中文文本实体关系抽取方法研究_第2页
中文文本实体关系抽取方法研究_第3页
中文文本实体关系抽取方法研究_第4页
中文文本实体关系抽取方法研究_第5页
资源描述:

《中文文本实体关系抽取方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士学位论文中文文本实体关系抽取方法研究THESTUDYONENTITYREATIONEXTRACTIONINCHINESETEXT孔兵哈尔滨工业大学2015年12月国内图书分类号:TP391.3学校代码:10213国际图书分类号:621.3密级:公开工学硕士学位论文中文文本实体关系抽取方法研究硕士研究生:孔兵导师:徐睿峰副教授申请学位:工学硕士学科:计算机科学与技术所在单位:深圳研究生院答辩日期:2015年12月授予学位单位:哈尔滨工业大学ClassifiedIndex:TP391.3U.D.C:621.3Dis

2、sertationfortheMasterDegreeinEngineeringTHESTUDYONENTITYREATIONEXTRACTIONINCHINESETEXTCandidate:BingKongSupervisor:AssociateProf.RuifengXuAcademicDegreeAppliedfor:MasterinEngineeringSpeciality:ComputerScienceandTechnologyAffiliation:ShenzhenGraduateSchoolDateo

3、fDefence:December,2015Degree-Conferring-Institution:HarbinInstituteofTechnology哈尔滨工业大学工学硕士学位论文摘要随着互联网的不断发展,网络文本中所包含的有价值的信息越来越多。由于文本中包含各种实体之间关系纷繁复杂,以人工和经验的方式进行相关知识的获取及组织已经远远不能满足应用需求。自动从互联网文本中抽取实体关系,成为自然语言处理和信息抽取研究中的重要问题。从现有的研究来看,大部分实体关系抽取方法存在目标关系类别分类较粗、不够细致的问题,

4、同时也相对缺乏对复杂类型的实体关系抽取的研究。为此,本文主要研究了两类典型的复杂实体关系抽取方法,分别是人物实体关系抽取与金融实体关系抽取。本文主要研究工作包括以下两个部分:第一,研究人物实体关系的自动抽取方法。在对人物实体关系表达文本的特点进行深入分析的基础上,本文设计实现了一种针对特定关系单独训练分类模型的人物关系抽取方法。该方法通过提取特定关系实体上下文信息及句子的结构特征进行有无关系的分类。针对关系分布不平衡现象,采用随机过采样的方式对人物实体关系数据进行不平衡处理。这一方法在第十五届机器学习会议竞赛中的人

5、物实体关系数据集上取得了0.6751的F值。第二,研究面向金融领域的实体关系自动抽取方法。由于缺乏公开的金融实体关系语料库,本文首先制定了金融实体关系体系以及实体关系标注的规范。在标注规范的指导下,对金融新闻进行实体关系标注。由此构建了包含有7大类关系类型,共1417条实体关系实例的金融实体关系语料库。针对金融领域实体关系表达的特殊性,提出了一种采用分块词袋模型与规则特征相结合的特征提取方法,并应用随机森林分类器实现金融领域的实体关系抽取。该方法在标注语料库上取得了0.6787的F值,相对于传统的实体关系抽取方法性

6、能提升明显。实验结果显示了分块词袋模型能有效地提取关系描述特征,并且随机森林能够有效利用实体上下文的描述特征和组合规则特征,用于实体关系抽取。关键词:关系抽取;人物实体关系;金融实体关系-I-哈尔滨工业大学工学硕士学位论文AbstractWiththerapiddevelopmentofInternet,moreandmoretextswithvaluableinformationarepublishedonline.Attributetothefactthattherelationsbetweenentities

7、intextarecomplex,themanuallyandempiricallyacquisitionandorganizationofknowledgehasbeenfartomeettherequirementofpracticalapplication.AutomaticallyextractingentityrelationsfromtheInternettextisbecominganimportanttopicintheresearchofnaturallanguageprocessingandin

8、formationextraction.Theobservationontheexistingworksshowsthatmostexistingrelationextractionmethodshavetheproblemofcoarseclassificationoftargetrelations.Meanwhile,therearefewstudies

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。