欢迎来到天天文库
浏览记录
ID:5386662
大小:544.98 KB
页数:9页
时间:2017-12-08
《规则与统计相结合的日语时间表达式识别》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、第27卷第6期中文信息学报Vo1.27,No.62013年l1月JOURNALOFCHINESEINFORMATIONPROCESSINGNOV.,2O13文章编号:1003—0077(2013)06—0192—09规则与统计相结合的日语时间表达式识别赵紫玉,徐金安,张玉洁,刘江鸣(北京交通大学计算机与信息技术学院,北京100044)摘要:该文提出了一种基于自定义知识库强化获取规则集,以及规则与统计模型相结合的日语时间表达式识别方法。在按照Timex2标准对时间表达进行细化分类的基础上,我们结合日语时间词的特点,渐
2、进地扩展重构日语时间表达式知识库,实现基于知识库获取的规则集的优化更新,旨在不断提高时间表达式的识别精准度。同时,融合CRF统计模型提高日语时间表达式识别的泛化能力。实验结果显示开放测试F1值达0.8987。关键词:知识库;规则集;统计模型中图分类号:TP391文献标识码:AJapaneseTimeExpressionRecognitionbyCombiningRuleswithStatisticsZHAOZiyu,XUJin’an,ZHANGYujie,LIUJiangming(SchoolofComputera
3、ndInformationTechnology,BeijingJiaotongUniversity,Beijing100044,China)Abstract:Basedontheknowledgebasewedefined,thispaperpresentsaJapanesetimeexpressionrecognitionmeth—odthroughcombiningrulessetstrengthenedbyknowledgebasewithstatisticalmode1.AccordingtOtheTime
4、x2standards’granularclassificationontime,weprogressivelyexpandedandreconstructedtheknowledgebasegiventheJapanesetimecharacteristic,andthenachievedrulessetoptimizationandupdate,inordertOincreaserecognitionaC—curacy.Simultaneously,we{usedCRFmodeltOenhancethegene
5、ralizationabilityofJapanesetimeexpressionrec—ognition.OurexperimentalresultsshowthattheF1valuereaches0.8987onopentest.Keywords:knowledgebase;rulesset;statisticalmodel例如,在机器翻译中,可以使译文更加流畅E妇;在多1引言文档自动摘要中,可以对文档信息进行时序排序;在自动问答系统中,可以用于回答“多久,何时”等与时间表达式是句子中的重要成分,是关键信息时
6、间相关的问题。的载体。时间表达式的抽取和处理是当前自然语言时间表达式识别与规范化研究,最早是1995年处理中的一个重要研究方向。正确识别时间表达式信息理解会议(MessageunderstandingConfer—具有重要的意义。ence,MUC)把时间表达式的识别作为命名实体识近年来,时间表达式的识别和规范化在事件跟别的一个子任务。在美国国家技术标准局(NIST)踪,时间关系推理,时序定位等方面的应用越来越于2004年举办了第一届时问表达式识别与归一化多,不仅可以提高分词、句法分析的精度,还可改善(TimeExp
7、ressionRecognitionandNormalization,机器翻译、信息抽取、文本摘要、对话系统的性能。TERN)的评测后,ACE2005(AutomaticContent收稿日期:2013—08一Ol定稿日期:2013-0925基金项目:国家自然科学基金资助项目(61370130);科技部国际科技合作计划(K11F100010);中央高校基本科研业务费专项资金资助项目(2O1OJBZ2O07);北京市重点学科共建资助项目(计算机应用技术);中国科学院计算技术研究所智能信息处理重点实验室开放课题(IIP
8、2010-4);北京交通大学人才基金资助项目(2011RC034)。作者简介:赵紫玉(1987一),女,硕士研究生,主要研究方向为自然语言处理;徐金安(197O),男,副教授,硕士生导师,主要研究方向为自然语言处理和机器翻译;张玉洁(1961一),女,教授,硕士生导师,主要研究方向为自然语言处理、机器翻译和文本大数据处理;刘江鸣(1989一),男,硕士研究生
此文档下载收益归作者所有