信息抽取中关键技术的研究

信息抽取中关键技术的研究

ID:37331402

大小:3.52 MB

页数:119页

时间:2019-05-22

信息抽取中关键技术的研究_第1页
信息抽取中关键技术的研究_第2页
信息抽取中关键技术的研究_第3页
信息抽取中关键技术的研究_第4页
信息抽取中关键技术的研究_第5页
资源描述:

《信息抽取中关键技术的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、北京邮电大学博士学位论文信息抽取中关键技术的研究姓名:张素香申请学位级别:博士专业:信号与信息处理指导教师:钟义信20070512北京邮电丈学博士学位论文摘要提高了人名、地名识别的召回率和准确率。除此之外,还首次提出自信度函数、顺序等特征,这些特征在实体识别中发挥了巨大作用。其次,细化分类模型。为了提高实体识别的性能指标,采用层叠方式的多模型结构,模型分为中国人名、外国译名、地名和组织机构名等识别模型,针对不同的模型抽取了不同的特征。第三,由于组织机构名长度不一,很难直接用规则的方法进行机构名候选,因此,本文采用先统计后规则的方法,并借鉴了短语识别技术,与常用的短

2、语BIO识别方法相比,本文定义了BILO四类标记,增加一类标记L。采用BIL0方法,将机构名识别转化为相应的标记分类任务,使机构名识别任务简单化。并且,本文还针对不同的机器学习方法开发了相应特征。最后,利用规则——特殊模板来识别利用统计方法没有识别出的机构名。利用该命名实体识别系统参加了2006年SIGHAN中的命名实体比赛,实验语料来自微软亚洲研究院,获取了最好成绩。本文还利用1998年1月的《人民日报》进行实验,对比了ME、cRFS用于汉语命名实体识别的实验结果,通过对结果的分析和比较,表明CRFs模型在性能上优于ME模型。2、提出了基于CRFs的实体关系自动

3、抽取方法,主要自动抽取句子中二元实体之间的关系,主要从以下两个方面完成:首先,收集和标注语料。以“人事变动”领域为例,基于《人民日报》和互联网进行语料收集工作,将收集到的语料进行切分、P0s等预处理后,再改写为xML树。在此基础上,我们标注了三类实体关系:职位、人、公司三者之间的关系,以及一定数量的反例,从而为后续研究打下基础。其次,在完成语料的收集、整理和标注工作后,建立了实验系统模型,利用CRFs算法进行实体关系的自动抽取实验。针对不同的实体关系选取不同特征,实验结果证明,CRFs和其它算法相比,可以有效地解决二元实体关系的自动抽取问题。3、为了正确获取文本中

4、隐含的实体关系并推送给用户一个更完整的结果,以全信息理论为方法论,在该方法论的指引下,充分利用语法、语义、语用等方面的知识,挖掘、获取多个实体之间的关系。具体表现为以下两点:首先利用机器学习方法获取分析实体关系时必不可少的语法知识,该语法知识由若干抽取模板组成。为了克服获取大规模标注语料这一困难,Ⅱ北京邮电大学博士学位论文提出利用无监督的学习方法——{100tstrapping方法获取抽取模板,并提出了层次知识获取模型,该模型由内外两层知识获取模块组成,内外两层模块互相嵌套获取了实体关系抽取所需的领域专业特征词表和抽取模板库,从而完成语法知识的获取任务。其次,建立

5、全信息知识库。采用语义框架的表示方法,结合“模式一行为”规则,对抽取模板进行语义分析和施效结果分析,挖掘出隐含的实体关系,同时修正已得到的错误实体关系,通过对最终实体关系的推理和整合,给用户推送一个完整的结果。实验结果表明,基于全信息的实体关系获取方法能有效地解决多个实体关系的同时获取问题。关键词:命名实体识别实体关系抽取全信息最大熵条件随机场Ⅲ北京邮电大学博士学位论文RESEARCHoNKEYTECHNoLOGIESoFTHEINFoRML们IoNEXTRA(习[IIoNWiththedcvelopmentoftheIntemettechnologyaIldgr

6、owttIofthenumberofelectronictext,whichhascausedthedifficultywhentheu∞rwanttogetmoreinterestinginfonIlationfromweb.Someintelligentizcdtoolshadbeenproposedtosolvetheseainfo瑚ationpmblem.Informationextractiontechnologyisoneofthem;thepurposeofinformationextractionsyste】=nsistoextractdomain

7、-specificinformationfromnatllrallanguagetext.AccordingtotheevaluationtaskofACEconference.theinfo瑚ationextractionhadbeenstIldiedincluding:namedenti哆recognition,entityrclationextraction,anaphoraIesolutionandeventdetection.ourresearchhadbeenconcentratedonnamedentityrccognitionandent竹rela

8、tione

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。