基于触发词优先级的事件抽取研究

基于触发词优先级的事件抽取研究

ID:21090618

大小:65.50 KB

页数:13页

时间:2018-10-19

基于触发词优先级的事件抽取研究_第1页
基于触发词优先级的事件抽取研究_第2页
基于触发词优先级的事件抽取研究_第3页
基于触发词优先级的事件抽取研究_第4页
基于触发词优先级的事件抽取研究_第5页
资源描述:

《基于触发词优先级的事件抽取研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于触发词优先级的事件抽取研究(摘要)本文将触发词分为时间类和非时间类,对触发词提取算法进行改进,以一定量导电塑料行业新闻为基础语料构建两类触发词词表,并采取时间类触发词优先的事件句识别策略。基于该触发词词表对导电塑料和太阳能行业新闻语料进行事件句识别算法有效性实验,开放测试的召回率和准确率分别超过98%和95%。该结果表明:将触发词进行基于时间特性的分类,并优先使用时间类触发词提取事件句,能取得显著的效果。〔关键词)事件句;抽取;触发词优先(中图分类号)TP391〔文献标识码〕A(文章编号)1008

2、-0821(2016)12-0046-04〔Abstract)Thispaperfocusedonefficienteventsentencesextractionalgorithm.Atriggerphraseextractionalgorithmtoextracteventssentencebasedontimeornontimetriggerwordwaspresented.Sometriggerwordswereextractedfromindustrynewscorpusaboutcondu

3、ctiveplasticsbasedonthealgorithm,theopeningbetaonindustrynewscorpusaboutconductiveplasticsandsolarhigherthan98%recallratioand95%accuracyratio,whichindicatedtheeffectivenessofalgorithm.〔Keywords)eventsentenceextraction;triggerwordpriority;timetriggerword

4、;nontimetriggerword当前有关事件抽取研宄中主要以特定行业新闻事件抽取研宄为主,包括金融、军事、法律、交通等行业,所采用的方法包括模式匹配、触发词和本体方法,触发词方法的使用频率最高,且综合效果(微平均)较优于单纯的模式匹配算法[1]。触发词也称事件关键词,通过对事件句的统计分析后发现,出现某类术语或词汇的句子文本中含有事件句的概率非常高,如:包含“发生”、“袭击”、“研制”、“生产”、“举行”、“举办”、“开幕”等动词的句子,“今年三月份在地铁3号线发生乘客猝死事件”、“周杰伦将于2

5、010年6月11日在台北小巨蛋举办周杰伦超时代演唱会”等基本为事件句。因此,通过建立事件触发词词典获得事件句集合再进行事件抽取能取得较好的效果。一般地,收集事件触发词的方法主要有两种:一是建立特定的触发词模型,通过已有事件句中词汇的分析统计,提取事件句触发词;二是由领域专家基于领域经验手工构建。手工构建方法主要依赖专家经验,一方面需要较长时间、较多人力投入,另一方面动态增加的海量事件文本也是一大挑战,触发词模型方法正好弥补了手工方法的缺陷,理论上更容易提高新增事件文本中触发词的查全率,但触发词模型的有

6、效性仍有待进一步提升,如文献[2],在构建相似词汇链的基础上,提出了一种基于词汇的TFIDF值、在文中的位置及相似词汇链长度的事件关键词模型,提取一定数量的事件关键词,对较大样本的实验有约74%的事件关键词为可接受的[2],自动提取事件触发词仍需要进一步研宄[3-5]。触发词方法强调了触发词对提高事件抽取召回率的重要意义,尤其对于触发词表相对固定的行业领域事件抽取而言,能提高事件抽取的效率;模式匹配方法更突出句法或语义角色对提高事件抽取准确率的重要意义,对于句法或语义角色相对固定的事件抽取任务,同样能

7、提高事件抽取的效率。因此,将触发词方法和模式匹配方法结合使用,理论上应能取得较好的召回率、准确率,也能保证一定的效率水平,但实际效果还有待提高,如文献[6]或文献[7]基于触发词及其邻近特征的动态权重的KNN算法或支持向量机判别事件句,准确率分别为81.8%和87.8%[6-7],且由于涉及特征选择,实际执行效率不理想。笔者曾设计了一种基于触发词句型模版的行业新闻事件句提取算法,由于过分强调“词”的形式,所选择的多数触发词所提取的句子准确率很低,如:“研制”事件抽取准确率仅为61.19%,因此需要事先

8、编制大量的触发词句型模版,尽管如此,仍仅有少量触发词句型模版抽取事件的准确率超过80%[8]。但笔者发现:若将“研制”改为“研制了”、“制造”改为“制造了”,则仅基于该两种触发词的事件抽取准确率即可提高到90%以上。因此笔者认为,对于触发词表相对固定的行业新闻,提高基于触发词的事件抽取准确率的方法主要在于提高触发词的“专指性”,即利用中文语言的特征寻找具有很强的事件提示功能的触发词或词组合。而若简单地统计事件中的高频词,则不易获得这类触发词。故本文将进一

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。