开放域命名实体识别及其层次化类别获取.pdf

开放域命名实体识别及其层次化类别获取.pdf

ID:51095824

大小:6.00 MB

页数:131页

时间:2020-03-18

开放域命名实体识别及其层次化类别获取.pdf_第1页
开放域命名实体识别及其层次化类别获取.pdf_第2页
开放域命名实体识别及其层次化类别获取.pdf_第3页
开放域命名实体识别及其层次化类别获取.pdf_第4页
开放域命名实体识别及其层次化类别获取.pdf_第5页
资源描述:

《开放域命名实体识别及其层次化类别获取.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、国内图书分类号:TP391.2学校代码:10213国际图书分类号:681.324密级:公开工工工学学学博博博士士士学学学位位位论论论文文文开放域命名实体识别及其层次化类别获取博士研究生:付瑞吉导师:刘挺教授申请学位:工学博士学科:计算机科学与技术所在单位:计算机科学与技术学院答辩日期:2014年7月授予学位单位:哈尔滨工业大学万方数据ClassifiedIndex:TP391.2U.D.C:681.324DissertationfortheDoctoralDegreeinEngineeringOPEN-DOMAINNAMEDENTITYRECOGNITIONANDHIERARCHICALCA

2、TEGORYACQUISITIONCandidate:RuijiFuSupervisor:ProfessorTingLiuAcademicDegreeAppliedfor:DoctorofEngineeringSpecialty:ComputerScienceandTechnologyAliation:SchoolofComputerScienceandTechnologyDateofDefence:July,2014Degree-Conferring-Institution:HarbinInstituteofTechnology万方数据摘要摘要命名实体识别的目标是识别文本中事物的名称并分

3、类。传统命名实体识别任务主要识别人名、地名和机构名等。但由于传统命名实体的类别有限,不能完全满足自然语言处理领域其他任务的需求。因此本文重点研究开放域命名实体的识别和层次化类别获取,旨在为信息抽取、信息检索、开放域问答、机器翻译等自然语言处理任务提供支持。开放域命名实体相对传统命名实体有两个主要特点:类别更多且不固定;类别更细且有层次。这导致开放域命名实体的识别面临无法标注训练语料、同一个命名实体属于多个不同粒度的类别等挑战,无法应用传统的序列标注的方法来解决。本文将开放域命名实体识别任务分为两个方面:边界识别和类别获取。边界识别面临的主要问题是训练语料的构建以及有效利用。类别获取面临的主要

4、问题是类别体系不可预先确定以及类别的层次化。本文的研究工作旨在解决上述两个问题,主要研究内容包括以下四个方面:第一部分为基于英汉双语平行语料自动构建汉语命名实体识别语料。命名实体识别训练语料不足会导致的领域过拟合问题,而人工标注的成本太高,本文使用双语平行语料将英语命名实体自动识别的标记映射到汉语端,从而实现汉语命名实体语料的自动标注。然后进一步使用多种策略综合筛选高质量的实例作为训练语料。实验证明这种方法可以自动构建大量的汉语命名实体识别训练语料,在该语料上训练的模型与人工标注语料上训练的模型性能接近,并且通过和人工标注的语料融合可以提高命名实体识别的准确率和召回率。此外,我们还详细分析了

5、平行语料规模和来源对命名实体识别效果的影响。第二部分为基于自学习的开放域命名实体边界识别。汉语开放域命名实体识别尚缺乏训练语料,而命名实体开放的类型导致人工标注语料的代价太大。本文首先基于双语平行语料和英语句法分析器自动标注了一个汉语专有名词语料,另外基于汉语依存树库生成了一个名词复合短语语料,然后使用自学习的方法将这两部分语料融合形成命名实体边界识别语料,同时训练边界识别模型。此外,本文还针对开放域命名实体的特点,提出了动词依存关系、命名实体构成模式等更加丰富的特征。实验结果表明自学习的方法可以提高边界识别的准确率和召回率,其中使用的特征对于提高边界识别效果皆有帮助。第三部分为基于多信息源

6、的开放域命名实体类别获取。命名实体的上位词通常表明了其类别信息。本文在Web搜索结果、在线百科和命名实体字面等多-I-万方数据哈尔滨工业大学工学博士学位论文个信息源中挖掘命名实体的上位词候选,然后设计了一组丰富的特征并在一个自动构建的语料上训练模型对候选进行排序,从而获得了命名实体的类别。实验结果表明多个信息来源可以相互补充和验证,有利于命名实体类别的挖掘和排序。此外,本文还对上位词排序的特征进行了评测。第四部分为基于词汇分布表示的开放域命名实体类别层次化。一个命名实体可能属于多个不同粒度的类别,这些类别之间通常存在上下位关系。为此,在获取命名实体类别的基础上,本文进一步挖掘类别之间的上下位

7、层次化关系。本文利用词汇的分布表示,学习从下位词到上位词的分段映射矩阵,来判断给定的词对是否具有上下位关系。实验证明本文采用的基于词汇分布表示的方法对于开放域命名实体类别的层次化是行之有效的。综上所述,本文针对开放域命名实体识别面临的挑战以及汉语的特点,深入研究了命名实体语料自动构建、边界识别、类别获取和类别层次化构建问题,取得了一些有意义的研究成果。我们期待这些研究成果能够进一步推动自然语言处理领域上层应用

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。