基于条件随机场的人物信息抽取

基于条件随机场的人物信息抽取

ID:28143552

大小:18.23 KB

页数:5页

时间:2018-12-08

基于条件随机场的人物信息抽取_第1页
基于条件随机场的人物信息抽取_第2页
基于条件随机场的人物信息抽取_第3页
基于条件随机场的人物信息抽取_第4页
基于条件随机场的人物信息抽取_第5页
资源描述:

《基于条件随机场的人物信息抽取》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、为了确保“教学点数字教育资源全覆盖”项目设备正常使用,我校做到安装、教师培训同步进行。设备安装到位后,中心校组织各学点管理人员统一到县教师进修学校进行培训,熟悉系统的使用和维护。基于条件随机场的人物信息抽取  摘要:近年来,信息抽取成为自然语言处理的一个热点,同时也是难点。针对不同的问题,大家提出了不同的方法,而大多数的方法是基于启发式规则或者抽象成分类问题,本文将从人物百科中抽取人物信息看成是一个序列标注的问题,利用条件随机场对生语料进行序列标注。此外,文中详细介绍数据分析的方法以及特征选取方法,所提出的方法直接从生语料中抽取,节省了大部分方法的数据预处理部分,同时避开了大部分方

2、法使用的句法分析的特征,有效地提高了信息抽取的效率。在文章的最后做了两组对比实验,实验结果表明,本方法能够非常准确地从HTML生语料中抽取出人物信息。  关键词:CRFs;人物;人物信息;信息抽取  中图分类号:文献标识码:A  1引言  随着互联网的不断发展,每天网络中产生的信息越来越多,各种信息也呈爆炸式增长。而如何有效的从网络中抽取出我们感兴趣的信息,则显得非常重要了。为了充分发挥“教学点数字教育资源全覆盖”项目设备的作用,我们不仅把资源运用于课堂教学,还利用系统的特色栏目开展课外活动,对学生进行安全教育、健康教育、反邪教教育等丰富学生的课余文化生活。为了确保“教学点数字教育

3、资源全覆盖”项目设备正常使用,我校做到安装、教师培训同步进行。设备安装到位后,中心校组织各学点管理人员统一到县教师进修学校进行培训,熟悉系统的使用和维护。  传统的信息抽取方法一般来说分为两类:基于无监督的启发式规则进行抽取,和基于机器学习方法进行有监督的信息抽取。其过程一般是定义一个清晰的信息抽取需求,然后分析所要处理语料的数据格式,再选择合适的方法进行信息抽取。  为了从大规模的信息中抽取出所需要的信息,以及促进信息抽取的发展,美国华盛顿大学图灵中心提出开放信息抽取,这一理念也被称为“新型抽取范式”的一种知识抽取方法[1]。  信息抽取系统的发展主要经历了几个阶段,每一个阶段都

4、有其典型的系统,例如TEXTRUNNER系统[2]、REVERB系统[3]、R2A2系统[5]等。其中TEXTRUNNER系统是最早的开放信息抽取系统,主要通过自监督的学习器、信息抽取器和基于重复信息的评价器三个部分来进行信息抽取,其相比之前出现的KNOWITALL系统,错误率降低了30%[4]。但是EXTRUNNER有其自身的问题,首先是其抽取出的信息有些是无意义的,第二由于其lightverb为了充分发挥“教学点数字教育资源全覆盖”项目设备的作用,我们不仅把资源运用于课堂教学,还利用系统的特色栏目开展课外活动,对学生进行安全教育、健康教育、反邪教教育等丰富学生的课余文化生活。为

5、了确保“教学点数字教育资源全覆盖”项目设备正常使用,我校做到安装、教师培训同步进行。设备安装到位后,中心校组织各学点管理人员统一到县教师进修学校进行培训,熟悉系统的使用和维护。construction的现象导致丢失了关键信息。在此基础上出现了REVERB系统,它的主要原理是以动词作为句子的核心抽取标记,增加语法限制和词汇限制,通过一定量的训练语料发现信息抽取模式并进行泛化[5],其抽取效果较好,但是明显的缺点是重动词轻其他词性,如以名词作为中心词的关系就抽取不出,而名词作为中心词在语言现象中出现的情况也属常见,同时其论元的确定有写也是错误的。这两类信息抽取方法都是依据简单的启发式规

6、则或简单论元进行,不能适合大部分的复杂的语言语境,而后面出现的R2A2增加了论元识别器,即ARGLEARNER,目的是识别每一个Arg1和Arg2的左右边界,原理是采用REPTree和条件随机场以及正则表达式等技术进行语法监测,其准确率和召回率较前面的系统都有显著的提升。  信息抽取的很重要的过程是分析数据文本,对指定信息进行定义,并发现其特征。本文借鉴了前面采用的信息抽取技术,并针对本文应用的百科数据进行分析,重点在于信息定义以及分析数据中信息特征,进行信息识别及抽取的过程,提出了基于条件随机场的信息抽取方法。  3基于条件随机场的人物信息抽取  本文的主要内容是做网页信息的序列

7、标注,所以这里本文采用CRF++开源工具包作为本文的分类器。CRF++工具包提供了两类特征接口,一类是Unigram特征,一类是Bigram特征,其不同点在于生成特征时,包不包含前面一个输出,顾名思义,Bigram是包含的,因此其能产生较多的特征,但同时效率也较低。  数据分析  本文采用的数据语料是从网络中爬取的历史人物百科信息。该语料的特点是数据完全是原始的HTML数据,也正是因为如此,数据中包含了大量的HTML标签和大量的对识别无意义的标识符。因此如何从生语料中

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。