资源描述:
《大规模句子相似度计算方法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、中文信息学报第20卷增刊JOURNALOFCHINESEINFORMATIONPROCESSINGVoL20SUPPL文章编号:1003一0077(2006)增刊一0047一06大规模句子相似度计算方法黄河燕’,陈肇雄’,张孝飞’,张克亮’,2(1.中国科学院计算机语言信息工程研究中心,北京100083;2.南京理工大学,江苏南京210094)摘要:如何根据源语言文本从大规模语料库中找出其最相近的翻译实例,即句子相似度计算,是基于实例翻译方法的关健问题之一。本文提出一种多层次句子相似度计算方法:首先基于句子的词表层特征和信息嫡从大规模语料库中选择出少量候选实例,然后针对
2、这些候选实例进行泛化匹配,从而计算出相似句子。在多策略机器翻译系统IHSMTS中的实验表明,当语料规模为20万英汉句对时,系统提取相似句子的召回率达%%,准确率达90%,充分说明了本文算法的有效性。关健词:句子相似度;基于实例的机器翻译;多策略机器翻译;泛化匹配中图分类号二TP391文献标识码:AApproachofLarge-ScaleSentenceSimilarityComputationHUANGHe-yan,CHENZhao-xiong,ZHANGXiao-fe,ZHANGKe-Liangl,2(1.ResearchCenterofComputer&Langu
3、ageInformationEngineering,ChineseAcademyofScience,Beijing100083,China;2.NanjingUniversityofscience&Technology,Nanjing,Jiangsu210094,China)Abstract;TheretrievalofthesimilartranslationexamplescorrespondingtotheSLsentencefromthelarge-scalecor-pora,orthecomputationofsentencesimilarity,isoneo
4、fthekeyproblemsofEBMT.Anewmulti-layersentencesim-ilaritycomputationapproachisproposedinthispaper.First,afewcandidatetranslationexamplesareselectedformalarge-scalecorpusonthebasisofthesurfacefeaturesandentropiesofthegivenwords.Second,thedegreeofgeneral-izationmatchbetweentheinputsentencea
5、ndeachofthosecandidatetranslationexamplesiscomputedrespectively.Finally,thesentencesimilarityiscomputedaccordingtotheoutcomesoftheprevioustwosteps.ExperimentalresultsfromtestsonIHSMTSshowthatthisapproachhasarecallrateof96%andaprecisionrateof90%whenappliedtoacorpusof200,000English-Chinese
6、sentencepairs.Keywords;sentencesimilarity;example-basedmachinetranslation;hybrid-strategymachinetranslation;generaliza-tionmatching1引言基于实例的机器翻译EBMT(Example-basedmachinetranslation)的基本思路是:预先构造由双语对照的翻译单元对组成的语料库,然后翻译过程选择一个搜索和匹配算法,在语料库中寻找最优匹配单元对,最后根据例句的译文构造出当前所翻译单元的译文〔’〕。如何根据源语言文本找出其最相近的翻译实例
7、,是基于实例翻译方法的关键问题之一。尤其是实用的EB-收稿日期:2005一11-05定稿日期:2006-01一10基金项目:国家自然科学基金资助项目(60502048,60272088);国家x`1.3计划资助项目(2002AA117010-02)作者简介:黄河燕(1963-),女,研究员,博士生导师,主要研究方向为自然语言处理与机器翻译、大型智能应用系统.47MT系统所需要的翻译实例库都非常大,一般在百万级乃至千万级双语句对以上[21。因此,如何从这么大的一个语料库中高效地计算出相似的翻译实例,提供给后面的双语词对齐、类比翻译处理等模块