机器学习算法在翻译风格研究中的应用

机器学习算法在翻译风格研究中的应用

ID:33031905

大小:132.94 KB

页数:22页

时间:2019-02-19

机器学习算法在翻译风格研究中的应用_第1页
机器学习算法在翻译风格研究中的应用_第2页
机器学习算法在翻译风格研究中的应用_第3页
机器学习算法在翻译风格研究中的应用_第4页
机器学习算法在翻译风格研究中的应用_第5页
资源描述:

《机器学习算法在翻译风格研究中的应用》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、机器学习算法在翻译风格研究中的应用詹菊红蒋跃西安交通大学外国语学院摘要:支持向量机是文木分析领域应用最多的机器学习算法之一,但其在翻译风格研究中的应用却并不多见。本研究基于语言计量特征,运用机器学习的方法对比王科一、张经浩两译者《傲慢与偏见》译本的翻译风格。首先,用信息增益算法获取两译者具有差异性的语言特征,然后基于这些特征构建文本分类器即支持向量机(SVM),对两译者的翻译文本进行自动分类,最后用十折交叉法对分类器的有效性进行验证。研究证明,机器学习算法分类准确率高,且具有很强的预测功能,有助于判定或预测译本或者译者的风格。与传统方法相比,该方法省时省力,过程可重复,结果精确可靠,

2、便于处理大量陌生语料和海量特征,能发现文本间更细微的特征差异,为大数据时代的探索性翻译研究提供了便利,是翻译研究科学化的一种新的尝试。另外,本研究结合统计数据对差界性语言特征进行分析,分析结果与前期研究和研究者对文木的感受高度吻合,具有很强的可解释性。关键词:机器学习算法;信息增益法;支持向量机;翻译风格;作者简介:詹菊红,西安交通大学外国语学院博士研究生,讲师,研究方向:语料库翻译学、计量风格学、计量语言学。作者简介:蒋跃(本文通讯作者),西安交通人学外国语学院教授,博士生导师,研究方向:语料库翻译学、计量风格学、计量语言学。基金:教育部社科规划项目“中医汉英平行语料库的构建与应用

3、研究”(项目编号:15YJC740127)OnUsingMachineLearningMethodstoDiscriminateTranslationStylesZhanJuhongJiangYueAbstract:Thepresentstudyisintendedtousemachinelearningmethodstodiscriminatetranslationstyles.First,theinformationgainmethodisusedtosingleoutninemostdistinctivestylisticmarkers;thentheSVMclassifier

4、isemployedtoclassifythetrans1ationtexts;andatlastthetcn-foldcross-validationmethodisemployedtotestthevalidityandtheprecisionrateoftheclassifier.Thetestprovesthatthismachinelearningmethodcaneffectivelydetectdelicateandsubtlelinguisticdifferences,rankthemintheorderofdistinctiveness,andclassifythe

5、translationtextswithhighprecisionrate.Furtheranalysisshowsthatthisclassificationresultaccordswithstatisticalandqualitativeanalysis,inwhichthereisaglobaldifferencebetweenthetwotranslations,withonecomparativelyclosertothesourcetextandtheothertothetargettext.ThisstudysuggeststhatSVMclassifierisare

6、liablemethodindiscriminatingtrans1ationstyles,andthatitsmodelhasgoodpredictivecapacity,whichcouldbeusedtopredictthestyleofthetranslatorofanunknowntranslatedtextwhennecessary.Keyword:machinelearningmethod;infonnationgainmethod;supportvectormachine;translationstyle;1.引言计量风格学(stylometry)也叫统计风格学(st

7、ylostatistics),即基于统计的风格研究,主要包括基于统计的方法和基于机器学习的方法。前者是指传统的频率统计、假设检验和方差分析,后者是指冋归、降维、聚类、分类等数据挖掘的方法。其理论基础认为,文本的语言特征是作者个人风格不自觉的深刻反映,并且这些特征又可以在一定程度上通过数量特征来进行刻画(刘颖2014:135)o计量风格学的缘起可追溯至19世纪中期,伦敦大学数学教授AugustusdeMorgan提岀,词长是考察作者写作风格的一个指标(Grz

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。