基于多特征融合的统计机器翻译译文错误检测.pdf

基于多特征融合的统计机器翻译译文错误检测.pdf

ID:52208819

大小:406.47 KB

页数:6页

时间:2020-03-25

基于多特征融合的统计机器翻译译文错误检测.pdf_第1页
基于多特征融合的统计机器翻译译文错误检测.pdf_第2页
基于多特征融合的统计机器翻译译文错误检测.pdf_第3页
基于多特征融合的统计机器翻译译文错误检测.pdf_第4页
基于多特征融合的统计机器翻译译文错误检测.pdf_第5页
资源描述:

《基于多特征融合的统计机器翻译译文错误检测.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、32西安理工大学学报JournalofXi’anUniversityofTechnology(2013)Vo1.29No.1文章编号:1006-4710(2013)O1-0032-06基于多特征融合的统计机器翻译译文错误检测王莎,杜金华,刘丁(西安理工大学自动化与信息工程学院,陕西西安710048)摘要:抽取了3种典型的单词后验概率特征(基于固定位置的词后验概率、基于目标位置窗的词后验概率、基于词对齐的词后验概率)和3种语言学特征(词、词性、句法分析器抽取的句法特征),并在此基础上抽取了一个来自源端的单词特征,然后基于中英NIST数据集,

2、采用最大熵分类器来验证不同单词后验概率特征(WPP)独立使用及与其它特征组合后使用时对错误检测性能的影响。实验结果表明,采用不同方法计算得到的单词后验概率特征对分类错误率的影响是显著的,并且在单词后验概率和语言学特征组合基础上加入源端单词特征,可以显著降低分类错误率(CER),提高译文错误检测能力。关键词:最大熵分类器;单词后验概率;语言学特征;源端单词特征;错误检测中图分类号:TP391文献标志码:AErrorDetectioninTranslationVersionbyStatisticalMachineTranslationBase

3、donFeatureIntegrationWANGSha,DUJinhua,LIUDing(FacuhyofAutomationandInformationEngineering,Xi’anUniversityofTechnology,Xi’an710048,China)Abstract:Threekindsoftypicalwordposteriorprobability(WPP)features(basedonthefixedposition,slidingwindow-WPPandalignment-basedWPP)andthre

4、ekindsoflinguisticfeatures(word,POSandLGparsingknowledge)areextractedtodetecterrors,onthebasisofwhichasource-sidewordfeatureisextracted,andthenbasedonNISTdatasettingthemaximumentropyclassifierisadoptedtotestthedif-ferentwordposteriorprobabilityfeaturesaswellastheeffectupo

5、ntheindependentuseanderrordetectionperformancesofotherfeatureintegrationinuse.TheexperimentalresultsshowthattheWPPfeaturesob-tainedusingthedifferentcalculationmethodshavetheobviouseffectsupontheclassificationerorrateandalsothatthesource-—sidewordfeatureincorporatedontheba

6、sisofintegrationoftheWPPandlinguis·-ticfeaturescansignificantlyreducetheCERvaluesandimprovethedetectionperformancesintranslationversionerors.Keywords:maximumentropyclassifier;wordposteriorprobability;linguisticfeatures;source-sidewordfeature:erordetection近年来,基于统计机器翻译方法的发展

7、,涌现出译译文质量,自动对译文进行错误判断、分类和分析了多种不同类型的统计机器翻译(SMT)系统,如基在SMT技术发展和应用中有着重要作用。于短语、层次短语及句法的机器翻译模型等,并且翻目前,译文错误检测方法多依据如单词后验概译性能得到了显著提高¨引。本领域内一些研究人率(wordposteriorprobability,WPP)的系统特征进行员对于如何将SMT系统应用到实际中做了大量工译文置信度估计,一些研究人员已经提出了多种根作。然而,目前来看,统计机器翻译译文质量仍然无据N—best或词图等计算WPP的方法,并且这些方法法满足工业化

8、的实际需要。因此,为了提高机器翻在机器翻译译文错误检测和置信度估计中得到了广收稿日期:2012—11—15基金项目:国家自然科学基金资助项目(61100085);陕西省教育厅专项科研计划基金资

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。