欢迎来到天天文库
浏览记录
ID:9129249
大小:69.50 KB
页数:8页
时间:2018-04-18
《基于跨语言信息投影的泰语新闻事件抽取》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、基于跨语言信息投影的泰语新闻事件抽取彭籍冲王红斌昆明理工大学信息工程与自动化学院事件抽取是信息抽取研宄领域屮的一个关键问题。针对采用传统的自我训练方法进行泰语新闻事件抽取,具有错误从上向下传播导致事件抽取系统性能不高的问题,针对这一问题,文中提出一种新的引导框架来进行泰语新闻事件抽取,即跨语言信息投影。该方法将从中文事件抽取系统中获取的信息映射为泰语,并采用结合单语与跨语言半协同训练的方法进行泰语新闻事件抽取。最后通过实验验证丫本文所提方法是可行的,并且显著地提高Y泰语新闻事件抽取的性能。关键词:泰语新闻事件;引导算法;跨语言半协同训练;事件抽取;基金:国家自然科
2、学綦金地区綦金项目(61462054)Tai-newseventextractionbasedoncross-lingualinformationprojectionPENGJi-chongWANGHong-binSchoolofInformationEngineeringandAutomation,KunmingUniversityofScienceandTechnology;Abstract:Eventextractionisakeyissueinthefieldofinformationextractionresearch.Inviewoftheerrors
3、preadsfromtoptodownwhenthetraditionalself-trainingmethodsforTai-newseventextractionisused,whichresultingthateventextractionsystemperformanceisnothigh.ThispaperpresentsanewguidanceframeworkfortheThai-newseventsextraction,thatis,cross-languageinformationprojection.Themethodmapstheinform
4、ationobtainedfromtheChineseeventextractionsystemtotheThai,anditusesthemethodofcombiningmonolingualandcross-lingualsemi-co-trainingtoextractThainewsevents.Final1y,theexperimentsshowthatthemethodproposedisfeasible,andsignificantlyimprovestheperformanceoftheThai-newseventextractionsystem
5、.Keyword:Tai-newsevent;bootstrappingalgorithm;cross-lingualsemi-co-training;eventextraction;0引言木文事件抽取任务相关定义参照ACE2005U1。根据定义,事件触发词与事件要素构成一个完整事件,事件触发词即为触发事件发生的词。因此,事件抽取任务可以等同触发词的识别与分类过程。例即“5月5日,清莱发生6.0级地震。”事件抽取系统任务为识别出即“地震”为事件触发词,事件类型即为触发词所对应的“地震类”事件。徐建m将常用事件抽取方法总结归类,分为基于模式匹配、基于词典驱动、基于机
6、器学习的方法。基于模式匹配与词典驱动的方法需要人工定义规则,不仅费时费力,而II在领域上可移植性不高。而在基于机器学习的方法中,半监督学习方法可以用少量的标记语料和大量的未标记数据训练分类器,不仅提高Y系统领域的可移植性并且极大程度上减少了人工干预的过程。因此,半监督学习在事件抽取研宄上受到广泛关注。Chapelle0位1提出使用未标记数据训练分类器,即自我训练方法(Self-Training),首先用小量标记好的数据集训练初始分类器,再用此分类器对部分未标记数据进行标记,把输出集中可信度高的标记数据添加到最初已标记数据集屮,用新已标记数据集进行下一次训练,直到满
7、足截止条件停止训练。自我训练的方法目的是利用大量未标记数据提高小标记样本下分类器的性能。但是此方法不断迭代使用上次训练得到的分类器来标记未标记数据,并将其分类结果加入下一次训练所用数据集中,导致错误自上向下的积累最终影响分类器的效率。BlumA[4]在自我训练的基础上提出协同训练算法(Co-Training)。它要求训练数据能够被分为两个不同部分,即可以用不同的角度描述数据,且这两组数据都可以被用来进行训练。每一次训练,两个训练器分别标记一部分未标记数据加入训练数据集中。然后这两个分类器重新训练新的训练集和迭代,直到满足截止条件停止训练。在泰语新闻事件抽取方而,由
8、于泰语新闻
此文档下载收益归作者所有