欢迎来到天天文库
浏览记录
ID:54018178
大小:694.42 KB
页数:8页
时间:2020-04-28
《基于规则的中文时间表达式识别与规范化.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、第31卷第3期广东工业大学学报Vol.31No.32014年9月JournalofGuangdongUniversityofTechnologySeptember2014doi:10.3969/j.issn.1007-7162.2014.03.016基于规则的中文时间表达式识别与规范化左亚尧,龙耀发,李杰骏(广东工业大学计算机学院,广东广州510006)摘要:为了解决文本时间表达式的识别与规范化问题,针对时间表达式在形式上的多样性与非结构化,提出了对时态元素进行刻画的思想,划分时间表达式类别及规范形式;在此基础上,采用正则表达式与Trie树结构相结合的方式构建出时间短语识别树,自动进
2、行中文时间表达式的识别与分类;最后,提出规范化算法与修正算法处理识别后的结果,得到规范化形式.以中文语料进行实验,中文表达式识别与规范化工作达到较好的效果.关键词:规则;正则表达式;时间表达式识别;规范化中图分类号:TP393文献标志码:A文章编号:1007-7162(2014)03-0088-07RecognitionandNormalizationofChineseTimeExpressionsBasedonRulesZuoYa-yao,LongYao-fa,LiJie-jun(SchoolofComputers,GuangdongUniversityofTechnology,G
3、uangzhou510006,China)Abstract:Concerningtheproblemwiththerecognitionandnormalizationoftimeexpressionsintexts,ai-mingatthediversityandunstructuredformsoftimeexpressions,itproposedtheideaofdescribingtempo-ralelementstodividethetypesoftimeexpressionsandtheirformsofnormalization.Withthemethodthatco
4、mbinedregularexpressionswithTrietreestructure,itbuilttherecognitiontreeoftimeexpressions,whichcouldrecognizetimeexpressionsautomatically.Finally,itproposedthenormalizationalgorithmandcorrectionalgorithmtodealwiththerecognizedresults.Theresultsareprettygood.Keywords:rule;regularexpressions;recog
5、nitionoftimeexpressions;normalization在自然语言处理、问题回答、信息检索等应用领疗记录提出一个时态表达式识别和时态关系抽取框域中,时态信息处理变得日益重要.无论是时态数架,时态表达式识别利用正则表达式建立的语法进据库还是时态数据挖掘研究领域,时态信息应用都行处理,而时态关系抽取结合了CRFs从中文医疗影响深远,时态信息促进大数据的存储与利用.近记录中的医疗问题中自动抽取时态属性.这些学者年来,时态信息的应用吸引了国内外专家学者的关进行了时态数据抽取的相关工作,却缺乏对时态数[1-5]注.据规范化的研究,难以更有效地利用时态信息.时态的应用研究首要任
6、务是时间表达式的抽随着关注时态信息的学者更为广泛,人们不满[6]取,如PeiquanJin等提出了时态搜索引擎(Time-足于时态信息的抽取识别,为提高时态信息的利用InspiredSearchEngine,TISE),主要对Web页面的度,针对已抽取的时间表达式,进行规范化工作.时间进行抽取与检索并且支持不同类型的Web时如文献[10]提出基于规则的HeidelTime系统,主要[7]态信息;李君婵等提出基于最大熵模型的方法来是利用正则表达式识别文档中的时态表达式以及对完成时间表达式抽取与类型识别;文献[8]提出一其进行规范化处理;文献[11]描述了一个对时态表种基于条件随机场(C
7、onditionalRandomFields,达式进行识别和规范化的系统,利用最大熵模型构CRFs)的时间表达式识别方案;文献[9]针对中文医建分类器对句子成分分类以完成识别工作,进而基收稿日期:2014-04-13基金项目:广东省自然科学基金资助项目(S2011040004281,S2013010014457)作者简介:左亚尧(1974-),男,副教授,主要研究方向为时态信息处理、数据挖掘、粒度计算.第3期左亚尧,等:基于规则的中文时间表达式识别与规范化
此文档下载收益归作者所有