基于条件随机场的人物信息抽取

ID：28143552

大小：18.23 KB

页数：5页

时间：2018-12-08

资源描述：

《基于条件随机场的人物信息抽取》由会员上传分享，免费在线阅读，更多相关内容在应用文档-天天文库。

1、为了确保“教学点数字教育资源全覆盖”项目设备正常使用，我校做到安装、教师培训同步进行。设备安装到位后，中心校组织各学点管理人员统一到县教师进修学校进行培训，熟悉系统的使用和维护。基于条件随机场的人物信息抽取　　摘要：近年来，信息抽取成为自然语言处理的一个热点，同时也是难点。针对不同的问题，大家提出了不同的方法，而大多数的方法是基于启发式规则或者抽象成分类问题，本文将从人物百科中抽取人物信息看成是一个序列标注的问题，利用条件随机场对生语料进行序列标注。此外，文中详细介绍数据分析的方法以及特征选取方法，所提出的方法直接从生语料中抽取，节省了大部分方法的数据预处理部分，同时避开了大部分方

2、法使用的句法分析的特征，有效地提高了信息抽取的效率。在文章的最后做了两组对比实验，实验结果表明，本方法能够非常准确地从HTML生语料中抽取出人物信息。　　关键词：CRFs；人物；人物信息；信息抽取　　中图分类号：文献标识码：A　　1引言　　随着互联网的不断发展，每天网络中产生的信息越来越多，各种信息也呈爆炸式增长。而如何有效的从网络中抽取出我们感兴趣的信息，则显得非常重要了。为了充分发挥“教学点数字教育资源全覆盖”项目设备的作用，我们不仅把资源运用于课堂教学，还利用系统的特色栏目开展课外活动，对学生进行安全教育、健康教育、反邪教教育等丰富学生的课余文化生活。为了确保“教学点数字教育

3、资源全覆盖”项目设备正常使用，我校做到安装、教师培训同步进行。设备安装到位后，中心校组织各学点管理人员统一到县教师进修学校进行培训，熟悉系统的使用和维护。　　传统的信息抽取方法一般来说分为两类：基于无监督的启发式规则进行抽取，和基于机器学习方法进行有监督的信息抽取。其过程一般是定义一个清晰的信息抽取需求，然后分析所要处理语料的数据格式，再选择合适的方法进行信息抽取。　　为了从大规模的信息中抽取出所需要的信息，以及促进信息抽取的发展，美国华盛顿大学图灵中心提出开放信息抽取，这一理念也被称为“新型抽取范式”的一种知识抽取方法[1]。　　信息抽取系统的发展主要经历了几个阶段，每一个阶段都

4、有其典型的系统，例如TEXTRUNNER系统[2]、REVERB系统[3]、R2A2系统[5]等。其中TEXTRUNNER系统是最早的开放信息抽取系统，主要通过自监督的学习器、信息抽取器和基于重复信息的评价器三个部分来进行信息抽取，其相比之前出现的KNOWITALL系统，错误率降低了30%[4]。但是EXTRUNNER有其自身的问题，首先是其抽取出的信息有些是无意义的，第二由于其lightverb为了充分发挥“教学点数字教育资源全覆盖”项目设备的作用，我们不仅把资源运用于课堂教学，还利用系统的特色栏目开展课外活动，对学生进行安全教育、健康教育、反邪教教育等丰富学生的课余文化生活。为

5、了确保“教学点数字教育资源全覆盖”项目设备正常使用，我校做到安装、教师培训同步进行。设备安装到位后，中心校组织各学点管理人员统一到县教师进修学校进行培训，熟悉系统的使用和维护。construction的现象导致丢失了关键信息。在此基础上出现了REVERB系统，它的主要原理是以动词作为句子的核心抽取标记，增加语法限制和词汇限制，通过一定量的训练语料发现信息抽取模式并进行泛化[5]，其抽取效果较好，但是明显的缺点是重动词轻其他词性，如以名词作为中心词的关系就抽取不出，而名词作为中心词在语言现象中出现的情况也属常见，同时其论元的确定有写也是错误的。这两类信息抽取方法都是依据简单的启发式规

6、则或简单论元进行，不能适合大部分的复杂的语言语境，而后面出现的R2A2增加了论元识别器，即ARGLEARNER，目的是识别每一个Arg1和Arg2的左右边界，原理是采用REPTree和条件随机场以及正则表达式等技术进行语法监测，其准确率和召回率较前面的系统都有显著的提升。　　信息抽取的很重要的过程是分析数据文本，对指定信息进行定义，并发现其特征。本文借鉴了前面采用的信息抽取技术，并针对本文应用的百科数据进行分析，重点在于信息定义以及分析数据中信息特征，进行信息识别及抽取的过程，提出了基于条件随机场的信息抽取方法。　　3基于条件随机场的人物信息抽取　　本文的主要内容是做网页信息的序列

7、标注，所以这里本文采用CRF++开源工具包作为本文的分类器。CRF++工具包提供了两类特征接口，一类是Unigram特征，一类是Bigram特征，其不同点在于生成特征时，包不包含前面一个输出，顾名思义，Bigram是包含的，因此其能产生较多的特征，但同时效率也较低。　　数据分析　　本文采用的数据语料是从网络中爬取的历史人物百科信息。该语料的特点是数据完全是原始的HTML数据，也正是因为如此，数据中包含了大量的HTML标签和大量的对识别无意义的标识符。因此如何从生语料中

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 5



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

基于条件随机场的人物信息抽取

基于条件随机场的人物信息抽取

相关文章

相关标签