欢迎来到天天文库
浏览记录
ID:31735564
大小:100.37 KB
页数:14页
时间:2019-01-17
《《中文信息学报》投稿模版-ictnlpgroup》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、文章编号:基于双语映射和标注自适应的分词知识自动推导方法作者一I,作者二2,作者三I(I.中国科学院计算技术研究所智能信息处理重点实验室,北京100190)摘要:本文捉出了一种从双语语料屮自动学习分词知识的方法。双语映射实现冇词边界的源语言和无词边界的目标语言之间的映射。标注口适应把映射知识调整成符合己冇的标注准则的语料。使用该方法的分词器比其他的无监督分词器表现明显好。使用标注自适应方法,可以在人工标记语料的基础上有效地提升分词性能。该方法为需耍分词但分词语料资源稀少的语言提供了有效、低成木的策略,并能容易地扩展到其他任务,像命名实体识别等。关键词:分词;双语映射;标注
2、适应中图分类号:TP391文献标识码:AAutomaticInductionofWordSegmentationKnowledgebyBilingualProjectionandAnnotationAdaptationName9,Name,Name(1.KeyLaboratoryofIntelligentInformationProcessing,InstituteofComputingTechnology,ChineseAcademyofScience,Beijing100190,China;Abstract:Thispaperdescribesanovelmethod
3、toautomaticallyinduccwordsegmentationknowledgefrombilingualcorpus,itiscomposedoftwosuccessivephases,bilingualprojectionandannotationadaptation.First,theprojectionproceduremapsthewordboundaryknowledgefrom【hesourcelanguagewithworddelimiterstothetargetlanguagewithoutworddelimiters・Then,thean
4、notationadaptationprocedureadaptstheprojectedknowledgetoanexistingannotationguideline・Experimentsshowthat,thesegmentertrainedontheprojectedcorpussignificantlyoutperformspreviousunsupervisedworks,andbyannotationadaptation,theprojectedwordsegmentationknowledgecansignificantlyimprovewordsegm
5、entationperformanceonthebasisofanexistinghuman-annotatedcorpus・providesaneffectiveandinexpensivestrategyforresource-scarcelanguagesthatneedwordsegmeniaiion,andcanbeeasilyextendedloothertaskssuchasnamedentityrecognition.Keywords:wordSegmentation;bilingualprojection;annotationadaptation对于很多
6、语言来说,分词是口然语言处理中的基本任务。己经有多个统计模型被研究者提出以解决分词问题,比如隐马尔科夫模型⑴,最大爛模型⑵,条件随机场模型⑶。近期也有一些致力于提升分词性能的新工作,比如使用全局训练方法或攵杂特征4刃,不同标准的整合叫词内结构研究力,联合或栈式建模4"。包括CRFs在内的判别式模型在特征表示方面具有很强的灵活性,性能却受限于训练数据的规模。为了能够使用未标注数据进行训练,许多人尝试使用半监督或是无监督的方法进行分词战⑸。也有研究者尝试把具有充足语料的语言和稀少语料的语言通过双语语料进行映射,来获取分词知识。与无监督的方法相比,双语映射方法通常可以获得更好的
7、分词表现,且复杂度低。但是,近期的双语映射工作却只关注句法信息或词汇信息”「呦。我们提出了一种从双语语料中自动获収分词知识的方法,这种方法包括两个阶段的工作:双语映射和标注口适应°双语映射阶段把有分词标记的源语言和无分词标记的目标语言进行映射,得到目标语言上的分词语料。在标注适应阶段,把上个阶段得到的分词语料当作根据源语言分词标准生成的失真的标注语料,通过标注自适应算法调整成我们需要的标注标准。在第一个阶段中,我们使用的方法与前人使用的较简单的对齐方法不同。我们使用一种改进的对齐结构:概率对齐矩阵。每个字的词边界标记概率都根据
此文档下载收益归作者所有