中文事件抽取技术研究

中文事件抽取技术研究

ID:9411118

大小:49.50 KB

页数:10页

时间:2018-04-30

中文事件抽取技术研究_第1页
中文事件抽取技术研究_第2页
中文事件抽取技术研究_第3页
中文事件抽取技术研究_第4页
中文事件抽取技术研究_第5页
资源描述:

《中文事件抽取技术研究》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、中文事件抽取技术研究版权和著作权归原作者所右,如存不愿意被的情况,己的信息,事件抽取是信息抽取领域一个重要的研究方向,本文对事件抽取的两项关键技术一一事件类别识别以及事件元素识别进行Y深入研究。在事件类别识别阶段,本文采用了一种基于触发词扩展和二元分类相结合的方法;在事件元素识别阶段,本文采用了基于最大熵的多元分类的方法。这些方法很好的解决了事件抽取中训练实例正反例不平衡以及数据稀疏问题,取得了较好的系统性能。关键词:计算机应用;中文信息处理;事件抽取;事件类别识别;事件元素识别:TP391A1引言事件抽取是信息抽取领域一个重要的研

2、宄方向。事件抽取把含有事件信息的非结构化文本以结构化的形式呈现出来,在自动文摘,自动问答,信息检索等领域有着广泛的应用。近些年来,事件抽取一直吸引着许多研宄机构和研究者的注意力。MUC(MessageUnderstandingConference)会议和ACE(AutomaticContentEx-traction)会议是典型的含有事件抽取任务的评测会议。本文存关事件抽取的定义和实例来自于ACEC。根据定义,事件由事件触发词(Trigger)和描述事件结构的元素(Argument)构成。图1结合ACE的事件标注标准详细地表述了一个事

3、件的构成。其中,“出生”是该事件的触发词,所触发的事件类别(Type)为Life,子类别(Subtype)为Be-Borno事件的三个组成元素“毛泽东”、“1893年”、“湖南湘潭”,分别对应着该类(Life/Be-Bom)事件模板中的三个元素标签,即:Person、Time以及Place。事件抽取任务可巾下面两个主要步骤组成:1.事件类别识别:事件模板由事件的类别决定。ACE2005定义了8种事件类别以及33种子类别,如表1。每种事件类别/子类别(简称为“事件类别”)对应着唯一的事件模板,如表2。2.事件元素识别:事件元素是指事件

4、的参与者。根据所属的事件模板(如表2),抽取相应的元素,并为其标上正确的元素标签。2相关工作及系统框架事件抽取主要有两种方法:模式匹配的方法和机器学习的方法。模式匹配的方法是指对于某类事件的识别和抽取是在一些模式的指导下进行的,采用各种模式匹配算法将待抽取的句子和已经抽出的模板匹配。例如Surdeanu和Harabagiu针对开放域的事件抽取系统FSA等。这种方法准确率较高,但往往依赖于具体领域,可移植性差。机器学习的方法把事件抽取任务看作分类问题,把主要的精力放在分类器的构建和特征的发现、选择上。相对而言,这种方法较为客观,不需要

5、太多的人工干预和领域知识,因此0前的事件抽取研宄多数采用机器学习的方法。HaiLeongChieu和HweeTouNg于2002年首次在事件抽取中引入最大嫡分类器,用于事件元素的识别;DavidAhn2006年结合MegaM和Timbl两种机器学习方法分别实现了事件抽取中事件类别识别和事件元素识别这两个主要步骤,在ACE英文语料上均取得了不错的效果。但Ahn的方法巾于将每个词作为一个实例来训练机器学习模型,引入了大量的反例,导致正反例严重不平衡;此外,事件类别的多元分类以及为每类事件元素单独构造多元分类器在语料规模较小的时候存在着一

6、定的数据稀疏问题。鉴于上述方法的不足,本文提出一种基于触发词扩展和二元分类相结合的识别方法进行事件类别的识别,多元分类模型的方法进行事件元素的识别,较好的避免了正反例不平衡和数据稀疏问题。图2给出了本文事件抽取系统的系统框架图。3事件类别识别事件触发词直接引发事件的产生,是决定事件类别的重要特征。本文提出基于触发词扩展和二元分类相结合的方法解决事件类别识别问题,分为候选事件的抽取和候选事件的分类两个主要步骤。3.1候选事件的抽取本文将含有触发词的句子称为候选事件。事件触发词直接决定候选事件及其候选类别的获取。由于训练语料中触发词(种

7、子触发词)数量有限,容易造成新事件的丢失。如:“他偏瘫在床”。假设“偏瘫”不是种子触发词,该句就不易被识别成事件。但“偏瘫”和“瘫痪”词义相近,本文使用哈工大信息检索研宄室的《同义词词林(扩展版)》自动扩充种子触发词,尽可能多的覆盖各种类型事件的触发词。扩展后的触发词及其所在事件的类别,组成二元组对(trigger,type),如:(瘫痪,Life/Injure)等,并构成“触发词一事件类别”二元对照表。据此,给出候选事件的抽取算法,如下:Stepl:预处理所要分析的文章,包括分句和分词;Stcp2:针对每一个句子,查看组成它的词语

8、是否在“触发词一事件类别”对照表中;Step3:若存在这样的词◦,则认为这个句子是一个候选事件,且事件触发词为◦,候选事件类别为触发词◦所对应的类型。若该句子含有多个这样的词◦,则认为该句子中存在多个事件,该句子是由不同触发词◦触发的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。