欢迎来到天天文库
浏览记录
ID:36785948
大小:593.55 KB
页数:6页
时间:2019-05-15
《英汉机器翻译系统中的词性标注研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、ComputerEngineeringandApplications计算机工程与应用2010,46(20)99英汉机器翻译系统中的词性标注研究王永生WANGYong-sheng同济大学出国培训学院,上海200092InternationalEducationCollegeofTongjiUniversity,Shanghai200092,ChinaE-mail:yshwangtj@hotmail.comWANGYong-sheng.Researchonpart-of-speechtaggingusingdecisiontreesinEngl
2、ish-Chinesemachinetranslationsys-tem.ComputerEngineeringandApplications,2010,46(20):99-102.Abstract:Part-of-speechisfundamentaltoEnglish-Chinesemachinetranslation.Thispaperdescribesanunsupervisedlearningofpart-of-speechtaggingusingdecisiontrees,onlyundertheconditionofalexi
3、con.Keywords:English-Chinesemachinetranslation;part-of-speechtagging;decisiontree摘要:词性标注是英汉机器翻译系统中一个基础性的研究课题。提出了一种基于决策树的词性标注的非监督学习算法,在只有一个词库的有限条件下,通过决策树进行词性标注的非监督学习,生成词性标注规则。关键词:英汉机器翻译;词性标注;决策树DOI:10.3778/j.issn.1002-8331.2010.20.028文章编号:1002-8331(2010)20-0099-04文献标识码:A中图分
4、类号:TP3911引言只能通过查找词库,取得每个单词所有可能的词性。假设现所谓词性标注(Part-of-SpeechTagging,POSTagging),是在还有一个未标注的语料库(UnannotatedCorpus),通过查找指给文本中的每个单词及符号指派一个词性或词汇类别标词库,将该语料库中的单词均标注上所有可能的词性。如:记。英文文本的词性标注是英汉机器翻译系统中一项基础性例句1In(IN)the(DT)lift(VB,NN)he(PRP)said(VBD,的研究工作,这是因为,词性信息往往是英汉机器翻译系统中VBN)nothing
5、(NN,RB)(..)括号内的符号为词性标记(采用的是PennTreebank[5]定的形态分析、句法分析及词义消歧等模块所必需的。词性标注是自然语言处理中一个基础研究课题,综观词义的词性标记集,共有45个标记)。在例句1中有3个词的词性标注的方法,大体可分为三类,即基于规则、基于统计及基性不确定,如何对它们进行消歧呢?以lift为例,由于该词的于机器学习。基于规则的方法主要是依据语言学、形态学等前一个词为定冠词the,通过遍历整个语料库,查看在the后面知识来手工编制规则,如TOSCA系统[1]等;基于统计的方法,的、无词性歧义的词,发现
6、它们可以是名词、形容词等,就是没主要采用HHM等统计模型来进行词性标注学习,如能量函数有一个是动词,依据这一点,可以断定此处的lift的词性为优化法(Energy-FunctionOptimization)[2]和最大熵法(Maxi-NN。也就是说,可以利用初始标注的语料库中无词性歧义的mumEntropyApproach)[3]等;而基于机器学习的方法主要有词来对有词性歧义的词进行消歧。这实际上将整个词性标注基于转换的学习算法(Transformation-BasedLearning)[4]等。问题转化成一个分类问题,如对于可能是NN和V
7、B的所有词上述三类方法中,第一类方法要求有较深的语言学功底,形成一类(下文中统一将此类称为NN_VB类),消歧的实质就后两类方法大多以大规模标注语料库(AnnotatedCorpus)为是将所有属于此类的实例最终分成两类,一类的词性为NN,基础。但对一般的研究人员而言,如果既不是语言学家,手头而另一类的词性为VB。文中将通过决策树中的ID3算法[6]来上也没有大规模的标注语料库,又该如何进行词性标注研究构造分类器,解决词性的消歧问题。呢?这也正是本文所要讨论的问题。此课题目前仅有一个包此外,在一段要标注的文本中,总有可能存在某些词在词含30
8、000个词的词库,其中包含每个词所有可能的词性,所要库中找不到,即所谓的未收录词(Out-of-vocabularyWords)。讨论的问题就是如何在这样有限的条件下,完成词性标
此文档下载收益归作者所有