资源描述:
《基于语言模型验证的词义消歧语料获取》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第22卷第6期中文信息学报Vol.22,No.62008年11月JOURNALOFCHINESEINFORMATIONPROCESSINGNov.,2008文章编号:100320077(2008)0620038205基于语言模型验证的词义消歧语料获取郭宇航,车万翔,刘挺(哈尔滨工业大学计算机科学与技术学院信息检索研究室,黑龙江哈尔滨150001)摘要:作为一种稀缺资源,人工标注语料的匮乏限制了有指导词义消歧系统的大规模应用。有人提出了利用目标词的单义同义词在生语料中自动获取词义消歧语料的方法,然而,在某些上下文当中,用
2、目标词替换这些单义的同义词并不合适,从而带来噪声。为此,笔者使用语言模型过滤这些噪声,达到净化训练数据,提高系统性能的目的。笔者在Senseval23国际评测中文采样词词义消歧数据集上进行了实验,结果表明经过语言模型过滤的词义消歧系统性能明显高于未经过滤的系统。关键词:计算机应用;中文信息处理;词义消歧;语言模型;噪声过滤中图分类号:TP391文献标识码:AWordSenseDisambiguationCorpusAcquisitionbyLanguageModelValidationGUOYu2hang,CHEWan
3、2xiang,LIUTing(InformationRetrievalLab,SchoolofComputerScienceandTechnology,HarbinInstituteofTechnology,Harbin,Heilongjiang150001,China)Abstract:Thelackofhand2craftedtrainingdataisacriticalissueforsupervisedwordsensedisambiguation(WSD)systems.Themonosemouslexica
4、lrelativessubstitutionoftargetwordshavebeenproposedtoacquireWSDcorpusfromtheWebautomatically.However,insomecases,themonosemouslexicalrelativescannotbesubstitutedbythetargetwordsuitablyandthennoiseswillbebroughtin.Weproposealanguagemodelsvalidationmethodtofiltert
5、hesenoises,whichcanpurifythetrainingdata,andimprovetheperformanceaccordingly.OurexperimentsonSenseval23ChineselexicalsampletaskshowthatthesystembasedonthetrainingdataacquiredfromtheWebwithlanguagemodelvalidationachievesbetteraccuracythantheonewithoutlanguagemode
6、lsvalidation.Keywords:computerapplication;Chineseinformationprocessing;wordsensedisambiguation;languagemodel;noisefilter更多的多义词同时达到较高的系统性能,语料获取1引言这一瓶颈是不得不克服的。很多人在不同的侧面进[3]行了尝试,包括从互联网上自动获取语料的方法,[4]自然语言中很多词有不止一个含义,词义消歧bootstrapping方法,利用双语平行文本的方(WordSenseDisambiguat
7、ion,WSD)的任务就是要[5,6]法等等。本文主要关注从互联网自动获取词义确定这些多义词在特定上下文中的正确词义。词义消歧语料的方法。消歧是自然语言处理当中的重要问题,对机器翻Leacock等人首先提出以单义同义词作为目标[1][2]译、信息检索等领域很有帮助。多义词相应词义的方式从语料库中抽取样本作为训基于人工标注语料的有指导词义消歧是当前最练数据的思想[7],Mihalcea和Moldovan扩展了这为流行词义消歧方法,不过这种方法依赖于足量的[8]个思想,并把它用在互联网语料库上。Agirre和人工标注语料,
8、其获取是比较困难的。为了在覆盖Martnez在有指导词义消歧上使用了类似方法获收稿日期:2008206205定稿日期:2008209210基金项目:国家自然科学基金资助项目(60575042,60675034);国家863计划资助项目(2006AA01Z145)作者简介:郭宇航(1984)),男,博士生,主要研究方向为词义消歧;车