基于最大熵短语重排序模型的特征抽取算法改进

基于最大熵短语重排序模型的特征抽取算法改进

ID:36620177

大小:577.20 KB

页数:5页

时间:2019-05-13

上传者:U-145848
基于最大熵短语重排序模型的特征抽取算法改进_第1页
基于最大熵短语重排序模型的特征抽取算法改进_第2页
基于最大熵短语重排序模型的特征抽取算法改进_第3页
基于最大熵短语重排序模型的特征抽取算法改进_第4页
基于最大熵短语重排序模型的特征抽取算法改进_第5页
资源描述:

《基于最大熵短语重排序模型的特征抽取算法改进》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

第25卷第2期中文信息学报Vol.25,No.22011年3月JOURNALOFCHINESEINFORMATIONPROCESSINGMar.,2011文章编号:1003-0077(2011)02-0078-05基于最大熵短语重排序模型的特征抽取算法改进1,22111孙萌,姚建民,吕雅娟,姜文斌,刘群(1.中国科学院计算技术研究所智能信息处理重点实验室,北京100190;2.苏州大学计算机科学与技术学院,江苏苏州215006)摘要:该文针对统计机器翻译中基于最大熵短语重排序模型特征抽取算法,提出一种改进算法。该算法能够抽取出更多准确的短语重排序信息,特别是逆序短语的特征信息,解决了原算法中最大熵训练时特征数据不平衡的问题,提高了翻译中短语重排序的准确率。以NISTMT05作为汉语到英语翻译的测试集,实验结果表明改进后的系统BLEU值比原系统提高0.65%。关键词:最大熵;特征抽取;统计机器翻译;重排序模型中图分类号:TP391文献标识码:AAnImprovingFeatureExtractionAlgorithmforMaximumEntropyBasedPhraseReorderingModel1,22111SUNMeng,YAOJianmin,LVYajuan,JIANGWenbin,LIUQun(1.KeyLaboratoryofIntelligentInformationProcessing,InstituteofComputingTechnology,ChineseAcademyofSciences,Beijing100190,China;2.SchoolofComputerScience&Technology,SoochowUniversity,Suzhou,Jiangsu215006,China)Abstract:Thispaperpresentsanimprovedfeatureextractionalgorithmformaximumentropybasedphrasereorde-ringmodel.Thealgorithmcanextractmoreaccuratefeatureinformationofphrasereordering,particularlythefea-tureofinvertedphrases.Itsolvestheproblemofunevendistributionoffeatureinformationandincreasestherateofcorrecttranslation.WeuseBLEUasametriconChinese-to-Englishtranslation,andtheproposedalgorithmobtainsarelativeimprovementof0.65%overbaselinesystem.Keywords:maximumentropy;featureextraction;statisticmachinetranslation;reorderingmodel许多系统(如Pharaoh,丝路)采用扭曲模1引言型概率调整目标语言短语之间的次序,每个目标短语的扭曲概率可以根据当前目标短语的源语言短语基于短语的统计机器翻译是当前机器翻译主流的起始位置与前一个目标短语的源语言短语最后位方法之一,翻译的基本单元从词过渡到短语,使得连置之间的距离计算。显然这种简单的基于惩罚长度[1]续的词串在翻译过程中作为一个整体进行处理,解的策略会影响短语重排序模型的正确率。将句法决了词的上下文依赖问题。翻译的时候将输入的句知识引入机器翻译系统,可以有效地改进重排序的子与短语词典进行匹配,选择最好的短语划分,同时将得到的短语译文重新排序,得到最优的译文。http://www.isi.edu/licensed-sw/pharaoh/其中,短语层次上重排序是基于短语机器翻译http://www.nlp.org.cn/project/project.php?proj_id=14的一个重要研究问题。收稿日期:2010-08-11定稿日期:2010-11-30基金项目:国家自然科学基金资助项目(60873167,60736014)作者简介:孙萌(1988),男,硕士生,主要研究方向为自然语言处理技术;姚建民(1971),男,博士,教授,主要研究方向为自然语言处理技术;吕雅娟(1972),女,博士,副研究员,主要研究方向为自然语言处理和机器翻译。 2期孙萌等:基于最大熵短语重排序模型的特征抽取算法改进*79[2-3][4]正确率。其中Wu提出的括号转录文法在机不同源语言目标语言短语对之间的差异性。[5]器翻译领域也得到了广泛的应用。但是由于括号转Xiongetal.对以上括号转录文法模型的调录文法并没有包含语言知识,因而不能很好地预测序模型进行了改进,提出了一个基于最大熵的括号[5]两个相邻目标短语的组合次序。Xiongetal.在转录文法的短语调序模型,即运用最大熵模型进行括号转录文法的基础上利用双语短语的边界单词作短语的调序:为特征进行最大熵训练得到重排序模型,并通过计expihi(o,A1,A2)i算相邻双语短语的特征获得在保序和逆序下的概=p(o|A1,A2)=expihi(o,A1,A2)率,可以更好地预测相邻短语之间的次序,从而有效oi地改善了翻译系统的翻译结果。(2)通过观察基于最大熵短语重排序模型进行最大其中,h为特征函数,为特征权重,o的取值为熵训练的特征,发现保序短语实例特征的数量远大保序或逆序,并且选取短语的尾词作为最大熵模型于逆序短语实例特征的数量,这是因为汉语和英语训练的特征。实验表明基于最大熵括号转录文法的的语序大致相同。利用最大熵实现短语的重排序也短语调序模型的性能明显优于传统的基于扭曲的短可以视为一个分类问题,即保序类和逆序类,而语调序模型和基于括号转录语法的调序模型。但用以训练分类器的特征数据存在数据不平衡问题,是,从实验可以看出,保序实例的数量要远高于逆序将有可能影响分类器的实际分类效果。例如,选择实例的数量,可能会影响最大熵模型的性能。本文FBIS作为训练语料,基线特征抽取系统从中抽取从重排序实例抽取算法和特征选择两方面切入,旨4839390条特征实例,其中保序特征实例占在解决最大熵训练数据不平衡问题。在实验中,将82.7%,而逆序特征实例仅占17.3%。以所有特征以采用基于最大熵调序模型的统计机器翻译系统[5]实例中的10万句子作为对重排序模型的开放式测Bruin作为基线系统。试集,剩余数据作为最大熵训练集,测试结果显示此重排序模型对保序特征的判断准确率97.55%,而3改进的重排序实例抽取算法对逆序特征的判断准确率仅为72.03%。另外,基于括号转录文法假设源语言端短语相邻则目标语言本文改进了最大熵短语重排序系统中重排序实短语也相邻,但是在实际的汉英句对中存在源语言例的抽取算法,在实现上更加灵活简洁并且易于扩短语相邻而目标语言短语不相邻的情况。针对以上展,可以满足实验中不同的抽取策略。情况,本文从保序实例选取策略、引入组合特征以及重排序实例抽取算法的输入是一个经过GIZA加入新的短语次序三个方面改进最大熵的特征抽取++双向对齐的词语对齐矩阵,输出是保序短语算法,以提高重排序模型的判断准确率,最终达到提实例和逆序短语实例。高翻译质量的效果。抽取算法首先遍历源语言端所有连续单词序列,并抽取与此连续序列相对齐的目标语言最大跨2基于最大熵短语重排序模型的统计机器度。然后过滤不满足对齐一致性的目标语言单词序翻译列与源语言单词序列,即依次反向扫描目标语言的跨度,检查其对应的源语言跨度是否在原连续单词[4]Wu提出了一种基于括号转录文法的统计翻序列范围内。最后,按照给定的不同抽取策略,抽取译模型。简化的括号转录文法仅包含以下两种出重排序实例。规则:3.1变量定义lR:Ax/y(1)mR:A[A1,A2]|介绍重排序实例抽取算法之前,首先定义与算l其中R为词汇规则,表示将源语言短语x翻译法相关的变量。m为目标语言短语y。R为合并规则,源语言短语和(1)alignset目标语言短语的顺序可以表示为保序和逆序两种。存放源语言到目标语言所有的对齐矩阵。在短语调序过程中,可以为合并规则中的两种不同顺序设置先验的保序和逆序概率,这种方法忽略了http://code.google.com/p/giza-pp/ 80中文信息学报2011年(2)straightset3.3重排序实例选择策略存放目标语言短语保序次序实例的集合。(3)invertedset基线系统采用了简单的方法控制重排序实例的存放目标语言短语逆序次序实例的集合。数量,即在保序实例中仅保留最小块,对于逆序实例(4)elseset仅保留最大块。显然,这样会损失一些短语边界特存放源语言短语相邻目标语言短语不相邻的征,并且保序实例的数量依然远超逆序实例的数量。实例。这种特征数据的不平衡会影响最大熵重排序模型的(5)src_span[i,j]判断准确率,特别是对逆序实例特征的判断。以10源语言从i到j的连续单词序列。万条实例进行开放式测试,其中逆序实例数量为(6)span[i,j]17286,对逆序实例的测试精度仅为72.03%。本文记录源语言i到j的连续单词序列以及对应目在3.1节提出的算法框架下,对重排序实例选择策标语言的连续单词序列。略依次进行以下3点尝试:1)为了解决最大熵训练过程中特征数据的不3.2算法实现平衡,最为直接的想法即是采取一定的选择策略直本算法首先获得任意源语言src_span[i,j]对接限制保序实例的数量。相比基线系统选择保序实应的最大对齐矩阵span[i,j],然后过滤不合法的例中最小块,本文采用随机算法选择保序实例数量,span[i,j]。最后对重排序实例进行分类以及抽取避免了前种方法可能导致的长短语边界特征的实例特征。具体步骤见算法1。缺失。算法1改进的重排序实例抽取算法2)在双语句子中会出现源语言短语相邻而目标语言短语不相邻现象,针对这种情况,本文在1的1.Input:双语词对齐矩阵A2.Initial(alignset,straightset,invertedset,elseset);基础上增加一个新分类,从一定程度上减轻特征数3.Foreach(src_span[i,j]s)do据的不平衡。抽取出来的实例,如果不属于保序和4.获取src_span[i,j]所对应的目标语言的对齐逆序类,即可将此实例归为一类。矩阵span[i,j],同时将span[i,j]存入3)由于giza++对齐结果存在错误对齐,对实alignset中;5.Endfor例扩展未对齐词会提高短语特征抽取的召回率。这6.Foreach(span[i,j]inalignset)里定义保序、逆序规则Si、Ii,i={0,1};其中当i=7.检查span[i,j]的对齐一致性,删除不一致的0,表示未对抽取实例进行未对齐词扩展;i=1,表示span[i,j];8.Endfor对抽取实例进行未对齐词扩展。9.Foreach(span[i,j]inalignset)10.Foreach(imid表示,其中b=,c代表源语言短语,e代表目标语言短语,b1和14.invertedset.push_back(span[i,j]);15.elseb2表示相邻或者不相邻短语。这里用c.h表示源语16.elseset.push_back(span[i,j]);言短语的首单词,c.t表示源语言短语的尾单词,对17.Endfor于目标短语e也采用同样的定义。18.Endfor基线系统考虑到特征抽取的规模,仅利用重排算法第9行到17行,描述的是改进的抽取实例表1重排序实例的特征算法的框架,基于此框架可以方便制定各种抽取规尾词特征b1.c.t,b2.c.t,b1.e.t,b2.e.t则。其中第10行对抽取出来的双语词对齐矩阵,检首词特征b1.c.h,b2.c.h,b1.e.h,b2.e.h查是否可以将其拆分成两个相邻双语短语对,并判断拆分后的相邻双语短语对的组合顺序。第16行,b1.c.h&b2.c.h,b1.e.t&b2.e.t,b1.c.t&b2.c.t,组合特征b1.e.h&b2.e.h,b1.e.h&b2.e.t,b1.e.t&b2.e.h本算法引入了一个新的分类,即不相邻双语短语对。 2期孙萌等:基于最大熵短语重排序模型的特征抽取算法改进*81序实例中的尾词。在特征抽取实验中,除了以上四表2重排序实例的规模、排序分类、测试精度和抽取的条尾词特征,增加首词特征和组合特征。特征由于汉语和英语语法结构的不同,在汉语标点保序逆序其他测试精度实例总量实验方案符号前后的短语或子句,其对应的英语翻译有可能/%/%/%/%将此短语或子句逆序组合表达。基线系统的解码方1483939082.717.3-93.9尾词特征法是,如果在重排序窗口中搜索到标点符号,则此窗+限制保序实例2146733765.134.9-86.5口将不做逆序操作。此方法对于对称符号,譬如数量!{}是相当有效。但对,并不能以此简单判+首词特征3146733765.134.9-92.8断。本文在增加重排序实例首词特征和组合特征的+组合特征基础之上,添加标点符号特征,以进行最大熵训练。4248582738.520.640.976.9+第三类别5526736338.520.640.976.4+扩展未对齐词5实验结果及分析6314466264.735.3-92.8-第三类别7314466264.735.3-91.5+标点特征实验中语言模型采用N-gram统计语言模型,使用LDC发布的GigaWord新华社部分作为训从表2中可以看出,实验1的测试精度达到最练英语语言模型的单语语料;采用统计机器翻译领高值93.9%,实验2由于限制了保序实例的数量,域公认的成熟开源语言模型训练工具SRILM进行使得抽取出来的实例总量与实验1相比下降70%,N-gram语言模型的训练。实验采用规模为518M导致最大熵训练的数据量不充足,因此测试精度仅的四元语言模型。有86.5%。考虑到在实例数量减少的情况下,需要基于重排序实例抽取算法,我们设计了7个对增加单个实例产生的特征数据量,所以在试验3中,比实验,以对比不同特征抽取策略对最大熵训练的对实例继续加入首词特征和组合特征,测试精度达影响以及对最终翻译结果得分BLEU值的影响。到92.8%。但是源语言短语相邻,并不表明目标语选择FBIS作为训练语料,抽取短语表以及重排序言短语相邻,于是实验4引入第三类别,即目标语言实例,其中语料规模大约为23.9万句对。以NIST短语不相邻的情况。实验4的测试精度却下降至MT02作为实验的开发集,NISTMT05作为测76.9%,这是因为新增的一个分类也增加了最大熵试集。重排序模型判断的不确定性。实验5在实验4的基5.1特征抽取策略对重排序结果的影响础上,扩展未对齐词,以增加实例的数量,但是实验选择重排序实例特征数据中的10万条记录作结果比实验4略低。实验4和实验5均是在实验3为最大熵重排序模型的开放测试集,表2显示了从的基础上,引入第三类而导致测试精度有较大下降,从一定程度上说明第三类的引入不会提高最大熵模训练数据中抽取的重排序实例的规模、排序分类、各分类所占比例、测试精度和抽取的特征。其中,测试型判断准确率。因此,本文设计实验6,在实验3的精度为最大熵分类器正确判断样本的数量与测试集基础上扩展未对齐词;实验7,在实验6的基础上引样本总数量的比值。入标点符号特征。这两组实验的测试精度仅比实验其中,实验1是基线系统,没有对保序实例的数1略低。量进行限制,实验2~7限制保序实例数量是逆序数本文更关注特征抽取策略对于最大熵模型判断量的2倍;实验2~4抽取实例时没有对未对齐词进逆序实例的正确率,图1显示最大熵重排序模型对行扩展,而实验5~7均进行未对齐词扩展;实验4、测试集中保序子集(Mono)和逆序子集(Invert)的5增加一个新的分类。测试精度。由于不同实验需要的特征不一致,所以只能确对测试集中的保序实例子集进行测试,除了实定测试集的数量,而不能确保测试集的内容的一致验4、5因引入新分类而导致对保序特征判断的不确性,因此不能简单的将最大熵重排序模型的测试精定性增大,实验2、3、6、7与实验1的测试精度相差度高低反映为翻译性能的高低,但仍然可以将最大熵重排序模型的测试精度作为一个参考指标。http://www.ldc.upenn.edu/ 82中文信息学报2011年6总结以及下一步工作本文提出一种新的重排序实例抽取算法,并在此基础上加入新的特征,取得较好翻译效果。首先,通过限制保序实例的数目直接解决最大熵训练过程中的数据不平衡问题,由于特征信息过少而导致翻图1保序子集和逆序子集的测试精度译性能下降。在此基础上,增加首词特征、组合特征不超过4%。观察测试集中的逆序实例子集的测试翻译性能得到提高。其次,引入第三类短语组合顺结果,实验2因为逆序特征的训练数据量较少,以致序,即保序逆序之外的不相邻情况,虽然BLEU值于对逆序实例子集的测试精度较低,而实验3、4、5、有所下降但仍然高于基线系统。最后,本文在实验6、7均比实验1在逆序实例子集的精度高。其中,中尝试扩展对齐短语中的未对齐词,增加重排序实实验6、7的测试精度比实验1高达16%。例特征数据量,翻译性能达到最好。从以上实验数据可以看出,本文提出的最大熵下一步工作我们将继续研究重排序实例特征对重排序模型特征抽取算法解决了由于特征数据不平翻译性能的影响,重点在于融合句法知识特征,希望衡导致最大熵模型对逆序特征判断不准确的情况。可以进一步提高翻译性能。此外,我们将深入探索基于括号转录语法框架下解码器的改进,以致可以5.2翻译结果对比处理源语言短语相邻而目标语言短语不相邻的在NISTMT05上测试大小写敏感的BLEU情况。值,图2显示7组用不同特征数据训练出来的最大熵重排序模型对最终翻译效果的影响。参考文献[1]PhilippKoehn.Pharaoh:ABeamSearchDecoderforPhrase-basedStatisticalMachineTranslationModels[C]//ProceedingsoftheSixthConferenceoftheAsso-ciationforMachineTranslation,Americas,2004:115-124.[2]KenjiYamadaandKevinKnight..ASyntax-basedStatisticalTranslationModel[C]//Proceedingsof图2不同最大熵重排序模型对BLEU值影响ACL,Toulouse,France,2001:523-530.[3]DavidChiang.AHierarchicalPhrase-basedModelfor基线系统实验1的BLEU值为0.2283。从上StatisticalMachineTranslation[C]//Proceedingsof图可以看到,除了实验2因特征训练数据过少以致ACL,AnnArbor,Michigan,2005:263-270.[4]DekaiWu.StochasticInversionTransductionGram-最大熵重排序模型在翻译过程中性能有较大下降,marsandBilingualParsingofParallelCorpora[J].实验3、4、5、6均基于实验2添加特征信息,并且在ComputationalLinguistics,1997,23:377-403.限制保序实例数量的同时重排序模型的性能均比基[5]DeyiXiong,QunLiu,andShouxunLin.Maximum线系统高,其中实验4因引入不相邻分类翻译性EntropyBasedPhraseReorderingModelforStatistical能有所下降但是BLEU值仍高于基线系统,实验7MachineTranslation[C]//Proceedingsofthe21stIn-加入标点特征,翻译的BLEU值达到最高值0.2348。ternationalConferenceonComputationalLinguistics本文提出的重排序实例抽取以及特征抽取算法,通and44thAnnualMeetingoftheAssociationforCom-putationalLinguistics,Sydney,Australia,2006:521-过限制保序实例数目和增加特征数量,可以显著提528.高重排序模型的性能从而提高翻译质量。

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
关闭