欢迎来到天天文库
浏览记录
ID:27182650
大小:50.50 KB
页数:5页
时间:2018-12-01
《基于触发词优先级的事件抽取研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于触发词优先级的事件抽取研究〔摘要〕本文将触发词分为时间类和非时间类,对触发词提取算法进行改进,以一定量导电塑料行业新闻为基础语料构建两类触发词词表,并采取时间类触发词优先的事件句识别策略。基于该触发词词表对导电塑料和太阳能行业新闻语料进行事件句识别算法有效性实验,开放测试的召回率和准确率分别超过98%和95%。该结果表明:将触发词进行基于时间特性的分类,并优先使用时间类触发词提取事件句,能取得显著的效果。中国4/vie 〔关键词〕事件句;抽取;触发词优先 〔中图分类号〕TP391〔文献标识码〕A〔〕1008-0
2、821(2016)12-0046-04 〔Abstract〕Thispaperfocusedonefficienteventsentencesextractionalgorithm.Atriggerphraseextractionalgorithmtoextracteventssentencebasedontimeornontimetriggeretriggerindustryne,theopeningbetaonindustryne. 〔Keyetriggeretriggerword 当前有关事件抽取研究中主要
3、以特定行业新闻事件抽取研究为主,包括金融、军事、法律、交通等行业,所采用的方法包括模式匹配、触发词和本体方法,触发词方法的使用频率最高,且综合效果(微平均)较优于单纯的模式匹配算法[1]。 触发词也称事件关键词,通过对事件句的统计分析后发现,出现某类术语或词汇的句子文本中含有事件句的概率非常高,如:包含“发生”、“袭击”、“研制”、“生产”、“举行”、“举办”、“开幕”等动词的句子,“今年三月份在地铁3号线发生乘客猝死事件”、“周杰伦将于2010年6月11日在台北小巨蛋举办周杰伦超时代演唱会”等基本为事件句。因此,通
4、过建立事件触发词词典获得事件句集合再进行事件抽取能取得较好的效果。 一般地,收集事件触发词的方法主要有两种:一是建立特定的触发词模型,通过已有事件句中词汇的分析统计,提取事件句触发词;二是由领域专家基于领域经验手工构建。手工构建方法主要依赖专家经验,一方面需要较长时间、较多人力投入,另一方面动态增加的海量事件文本也是一大挑战,触发词模型方法正好弥补了手工方法的缺陷,理论上更容易提高新增事件文本中触发词的查全率,但触发词模型的有效性仍有待进一步提升,如文献[2],在构建相似词汇链的基础上,提出了一种基于词汇的TFIDF
5、值、在文中的位置及相似词汇链长度的事件关键词模型,提取一定数量的事件关键词,对较大样本的实验有约74%的事件关键词为可接受的[2],自动提取事件触发词仍需要进一步研究[3-5]。 触发词方法强调了触发词对提高事件抽取召回率的重要意义,尤其对于触发词表相对固定的行业领域事件抽取而言,能提高事件抽取的效率;模式匹配方法更突出句法或语义角色对提高事件抽取准确率的重要意义,对于句法或语义角色相对固定的事件抽取任务,同样能提高事件抽取的效率。因此,将触发词方法和模式匹配方法结合使用,理论上应能取得较好的召回率、准确率,也能保证
6、一定的效率水平,但实际效果还有待提高,如文献[6]或文献[7]基于触发词及其邻近特征的动态权重的KNN算法或支持向量机判别事件句,准确率分别为81.8%和87.8%[6-7],且由于涉及特征选择,实际执行效率不理想。笔者曾设计了一种基于触发词句型模版的行业新闻事件句提取算法,由于过分强调“词”的形式,所选择的多数触发词所提取的句子准确率很低,如:“研制”事件抽取准确率仅为61.19%,因此需要事先编制大量的触发词句型模版,尽管如此,仍仅有少量触发词句型模版抽取事件的准确率超过80%[8]。但笔者发现:若将“研制”改为“
7、研制了”、“制造”改为“制造了”,则仅基于该两种触发词的事件抽取准确率即可提高到90%以上。 因此笔者认为,对于触发词表相对固定的行业新闻,提高基于触发词的事件抽取准确率的方法主要在于提高触发词的“专指性”,即利用中文语言的特征寻找具有很强的事件提示功能的触发词或词组合。而若简单地统计事件中的高频词,则不易获得这类触发词。故本文将进一步研究获得高“专指性”新闻事件触发词的有效方法,进而提高基于触发词的事件句抽取的准确率。 1基于触发词的行业事件抽取 1.1语料特征分析――以导电塑料行业新闻为例 以“导电塑料”及
8、其同义词或近义词为检索词,利用搜索引擎检索相关导电塑料行业新闻,共获得658条语料记录。根据新闻撰写的规定和相关理论,新闻导语句一般会报导新闻的五个要素――何时、何地、何人、何事、何因[9],这五要素正是新闻事件句的必备元素,而后续的文字则是对新闻事件的补充说明,因此理论上可从导语部分抽取事件。但事实上658篇语料中,事件句分散在
此文档下载收益归作者所有