欢迎来到天天文库
浏览记录
ID:9853167
大小:323.28 KB
页数:12页
时间:2018-05-12
《《中文信息学报》投稿模版 - ict nlp group》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、文章编号:基于双语映射和标注自适应的分词知识自动推导方法作者一1,作者二2,作者三1(1.中国科学院计算技术研究所智能信息处理重点实验室,北京100190)摘要:本文提出了一种从双语语料中自动学习分词知识的方法。双语映射实现有词边界的源语言和无词边界的目标语言之间的映射。标注自适应把映射知识调整成符合已有的标注准则的语料。使用该方法的分词器比其他的无监督分词器表现明显好。使用标注自适应方法,可以在人工标记语料的基础上有效地提升分词性能。该方法为需要分词但分词语料资源稀少的语言提供了有效、低成本的策略,并能容易地扩展到其他任务,像命名实体识别等。关键词:分词;双语映射;标注适应中图分类号:
2、TP391文献标识码:AAutomaticInductionofWordSegmentationKnowledgebyBilingualProjectionandAnnotationAdaptationName1,2,Name2,Name1(1.KeyLaboratoryofIntelligentInformationProcessing,InstituteofComputingTechnology,ChineseAcademyofScience,Beijing100190,China;Abstract:Thispaperdescribesanovelmethodtoautomatica
3、llyinducewordsegmentationknowledgefrombilingualcorpus,itiscomposedoftwosuccessivephases,bilingualprojectionandannotationadaptation.First,theprojectionproceduremapsthewordboundaryknowledgefromthesourcelanguagewithworddelimiterstothetargetlanguagewithoutworddelimiters.Then,theannotationadaptationpr
4、ocedureadaptstheprojectedknowledgetoanexistingannotationguideline.Experimentsshowthat,thesegmentertrainedontheprojectedcorpussignificantlyoutperformspreviousunsupervisedworks,andbyannotationadaptation,theprojectedwordsegmentationknowledgecansignificantlyimprovewordsegmentationperformanceonthebasi
5、sofanexistinghuman-annotatedcorpus.Itprovidesaneffectiveandinexpensivestrategyforresource-scarcelanguagesthatneedwordsegmentation,andcanbeeasilyextendedtoothertaskssuchasnamedentityrecognition.Keywords:wordSegmentation;bilingualprojection;annotationadaptation1引言对于很多语言来说,分词是自然语言处理中的基本任务。已经有多个统计模型被
6、研究者提出以解决分词问题,比如隐马尔科夫模型[1],最大熵模型[2],条件随机场模型[3]。近期也有一些致力于提升分词性能的新工作,比如使用全局训练方法或复杂特征[4-5],不同标准的整合[6],词内结构研究[7],联合或栈式建模[8-11]。包括CRFs在内的判别式模型在特征表示方面具有很强的灵活性,性能却受限于训练数据的规模。为了能够使用未标注数据进行训练,许多人尝试使用半监督或是无监督的方法进行分词[12-15]。也有研究者尝试把具有充足语料的语言和稀少语料的语言通过双语语料进行映射,来获取分词知识。与无监督的方法相比,双语映射方法通常可以获得更好的分词表现,且复杂度低。但是,近期
7、的双语映射工作却只关注句法信息或词汇信息[16-20]。我们提出了一种从双语语料中自动获取分词知识的方法,这种方法包括两个阶段的工作:双语映射和标注自适应。双语映射阶段把有分词标记的源语言和无分词标记的目标语言进行映射,得到目标语言上的分词语料。在标注适应阶段,把上个阶段得到的分词语料当作根据源语言分词标准生成的失真的标注语料,通过标注自适应算法调整成我们需要的标注标准。在第一个阶段中,我们使用的方法与前人使用的较简单的对齐方法不同
此文档下载收益归作者所有