基于多特征的翻译自动评价方法研究.doc

基于多特征的翻译自动评价方法研究.doc

ID:56214782

大小:205.50 KB

页数:8页

时间:2020-03-21

基于多特征的翻译自动评价方法研究.doc_第1页
基于多特征的翻译自动评价方法研究.doc_第2页
基于多特征的翻译自动评价方法研究.doc_第3页
基于多特征的翻译自动评价方法研究.doc_第4页
基于多特征的翻译自动评价方法研究.doc_第5页
资源描述:

《基于多特征的翻译自动评价方法研究.doc》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、基于多特征的翻译自动评价方法研究计算机科学与技术学院:赖中华指导教师:杨沐旳摘要:针对翻译自动评价问题,使用自然语言处理技术,分析人工翻译评价时考虑的关键翻译质量特征,并尝试建立一个基于多特征的翻译质最自动评价模型。本文从153篇英汉译文以及对应的专家评分着手,进行了一系列的翻译质戢特征的自动获取研究,在大最实验的基础上利用线性冋归方法建立翻译自动评价模型,取得和人工评分较高的相关性。关键词:翻译质量特征;线性冋归;翻译自动评价Abstract:Thispaper,adoptingthehumantranslationsanditsmanualassessments,inv

2、estigatesthekeytranslationqualityfeatures(TQF)bythetechnologiesofnaturallanguageprocessing.BasedonaseriesofautomaticallyacquiredTQFswhichareprovedrelevanttohumantranslationevaluation,thispapersuggestsafeature-richautomatictranslationevaluationmodel.Takingthehumanevaluationof153translations

3、asthedata,theautomatictranslationcvaluationmodelisfinallyestablishedbyintroducingthelinearregressionmethod・Keywords:automatictranslationevaluationtranslationqualityfeaturelinearregression1引言翻译标准是翻译研究的核心问题乙一,而制定一个普遍能接受的翻译标准一貞是一个难题。翻译的白动评价技术通过量化人工翻译评价时考虑的要索,给出了一个客观、公正的翻译评价标准。翻译的白动评价技术可以在一定穆度

4、上推动翻译理论研究,而且对机器翻译研究也有一定的育接应用价值。现有的机器翻译白动评价研究屮,众多方法的基础多是以词汇为基础的字符串相似度计算方法的改进,如BLEU方法匸、NTST方法⑵、基于编辑距离的方法⑶等等。这种以符号匹配为基础译文和标准达案Z间的简单相似度,无法深入挖掘人丁•翻译评价屮考虑的备种语言学特征,不能满足满前机器翻译研究以及翻译H动评价的应用需求。木文研究H的在于利用白然语言处理技术的各种语言分析方法,探索发现翻译质量评价特征,为建立一个能够跟人工评价接近的翻译白动评价模型奠定基础,以解决现有的机器翻译译文白动评价在句了级和人工评测一致性较差的问题。翻译质量

5、特征的获取及分析木节依次从翻译长度特征、词汇H动对齐的翻译质量特征、语言模型的翻译质量特征和白动句法分析的翻译质量特征这四个方瓯,杳实自动获取人工评价译文是所采用的翻译质量特征。我们通过Spearman和Pearson两种相关系数,来分析自动获取的译文特征和人I】评价结果的相关性。2.1翻译及其人工评价数据为了获取特征,特选取了某次外语水平考试的英汉翻译测试的试题、参考答案、153个学生翻译答卷以及正式评分结果作为实验数据。该测试题由3个连续的句了纽.成的1段英文构成,共计76个单词,满分12分。由于翻译答卷是汉语,因此采用汉语分词工具,对翻译结果进行了白动分词处理。2.2

6、翻译长度特征获取及分析翻译长度特征考虑的是翻译句了的物理特征,首先取了旬了长度和平均词长。对于句了长度,共采用了两种角度考虑:(1)从字节层面计算句子长度;(2)从词数上计算句子长度。其屮,两种计算角度的句子长度与人T评价结果的相关性比较好,见表2・1。但平均词长与人工评价结果几乎没有相关性,观察原始实验数据,发现汉语以2字词为主,因而所有.翻译的平均词长都在2个汉字左右,并不随翻译结果的好坏而发生变化。同一语言屮较长的句了通常比较短的句了携带更多的信息量,因此它常常通过携带较多信息量的较长译文句子来表达,这样才能基木保证翻译过稈屮意义的完整性。正是基于上述的考虑,采用概率

7、模粮设计旬了长度参数获取了翻译长度互译概率特征。该特征与人工评价也冇较好的相关性。表2-1翻译长度特征和人工评价的相关性SpearmanPearson句长(总字节数)0.5849020.672936句长(总词数)0.5410860.651032翻译长度互译概率0.5354570.5631712.3词汇对译特征获取及分析词汇对译特征是基于句子白动对齐结果上提取出来的。所谓句子自动对齐,就是利用计算机白动识别双语文本屮的内容相互对应的句了。首先,统计了词对齐数、精确率和召冋率与手工翻译评价结果的相关性。精确率和召冋率的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。