资源描述:
《自动构建时间基元规则库的中文时间表达式识别》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第24卷第4期中文信息学报Vol.24,No.42010年7月JOURNALOFCHINESEINFORMATIONPROCESSINGJul.,2010文章编号:10030077(2010)04000308自动构建时间基元规则库的中文时间表达式识别邬桐,周雅倩,黄萱菁,吴立德(复旦大学计算机科学技术学院,上海200433)摘要:该文提出一种基于正则文法的时间表达式识别算法:它基于时间基元!进行规则构建,提高了时间表达式识别的召回率;同时使用基于错误驱动思想的规则剪枝算法,削减了从训练语料带来的噪声,提高了识别的正确率,两者搭配有效提高了系统整体性能。
2、在ACE07中文语料上的实验结果显著超过了现有水平,Fscore达到89.9%。该文提出的算法具有很好的通用性和扩展性,加以改进将可以有更广泛的应用。关键词:计算机应用;中文信息处理;时间表达式识别;时间基元;Timex2;错误驱动;正则表达式中图分类号:TP391文献标识码:AChineseTimeExpressionRecognitionBasedonAutomaticallyGeneratedBasicTimeUnitRulesWUTong,ZHOUYaqian,HUANGXuanjing,WULide(SchoolofComputerScie
3、nce,FudanUniversity,Shanghai200433,China)Abstract:ThispaperproposesagenericalgorithmforTimeExpressionRecognition(TER)taskbasedonregularexpressions.ThealgorithmgeneratesrulesbasedonBasicTimeUnit,whichimprovestherecallvalue.Anditprunestherulecollectionthrougherrordrivenmethodandreduces
4、thenoisetakenfromtrainingcorpus,whichleadstoahighprecision.Thetwofeaturesjointlyimprovetheoverallefficiencyofourmethodcomparedtothebaselinesystem:withasignificantbetterperformanceofupto89.9%FscoreonACE07ChineseCorpus.Inaddition,theproposedalgorithmhasgoodadaptablilityandscalability
5、forabroaderapplication.Keywords:computerapplication;Chineseinformationprocessing;timeexpressionrecognition;basictimeunit;Timex2;errordriven;regularexpression[1][2][3]伯语,扩展到韩语、法语和西班牙语等。1引言随着对时间表达式的关注度逐渐提升,陆续出现了许多相关的评测。自从2004年NIST(Nation时间表达式的识别是信息抽取领域的一项基础alInstituteofStandardsandTe
6、chnology)的TERN性任务,它可以用于事件跟踪,时间关系推理,时序(TimeExpressionRecognitionandNormalization)定位等。比如在主题检测与跟踪任务中,可以用时评测问世之后,ACE2005(AutomaticContentEx间来定位事件发生的先后顺序;在自动问答系统中,traction)和SemEval2007(SemanticEvaluations)可以用来回答和时间相关的问题如多久,何时;在评测也相继将其纳入自己的任务中,时间表达式评测的标准也日益成熟。机器翻译任务中,时间顺序的定位可以让译文更加TERN评测包
7、含两个任务,其中TER(Time顺畅易读;甚至在网页结构分析方面,也在研究如何ExpressionRecognition)主要完成语料中时间表达用时间表达式特征去提高分析正确率。近几年来,时间表达式的识别和规范化由于在时序方面的重要!时间基元的概念在本文2.2节详细介绍。应用,涉及的语种也从起初包含的英语、汉语和阿拉收稿日期:20091202定稿日期:20100126基金项目:国家自然科学基金资助项目(60503070)作者简介:邬桐(1984∀),男,硕士生,主要研究方向为自然语言处理;周雅倩(1976∀),女,讲师,主要研究方向为自然语言处理;黄萱
8、菁(197