欢迎来到天天文库
浏览记录
ID:52469655
大小:185.41 KB
页数:10页
时间:2020-03-27
《基于双语对齐语料--英汉词典的自动生成.pdf》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、基于双语对齐语料--英汉词典的自动生成中文信息处理Project:0124120杜浩January16,2005摘摘摘要要要本文提出一种自动生成英汉词典的方法。该方法基于已对齐的双语语料库,针对查询英文单词,枚举其可能的中文释义,从中挖掘与该查询英文单词共生频率高,但自身衍生频率低的中文释义,生成词典。本方法在《圣经恢复本-中英对照版》语料库上实验,成功提取了5668单词的中文释义,并达到了1级释义正确率60%和4级释义的正确率88%的评估结果。1引引引言言言英汉词典,作为沟通中文和英语两种不同语言之间的桥梁,为中国与世界的交流做出了巨大贡献
2、。它的编制和生产已经产品化。英汉词典编制的基础是中英文对于同一事物的两种不同表达。设想世界上第一本英汉词典的编制,由一个即懂中文又懂英文,但不知道中英文单词对应关系的人,经过长期对两种语言的学习、对比,他总结出对应的规律,发现在表达有关铅笔的时候,例如“Thereisapencilonthedesk.”、“Ihaveapencil.”、“Thepencilisbeautiful.”,都含有“pencil”这一词。于是得出结论,“pencil”很可能指得就是“铅笔”。于是,将这一对应关系写下来,作为词典中的一个词条。无论是印刷版词典,或是当今广
3、为使用的类似“金山词霸”这样的电子词典,目前为止都是人工编制的。人经过对中英文的对比、总结,慢慢的发现词条之间的对应关系。人工智能领域研究和发展的今天,我们可以尝试用计算机来做这一件事。这可以看作机器翻译[1]的逆过程(一些早期的机器翻译算法,根据词典生成译文。而本文是根据双语对照的译文,生成词典)。这一工作的基础,是大量的双语对齐语料库,用来给计算机“学习”,恰好类似于第一个编英汉词典的人也需要学习大量对于同一事1物的双语表达。引文[2]提出一种实现方案,在其实现步骤中,需要完成中文分词、释义词典过滤。然而,中文分词需要用到汉语词典,与此同
4、时并不是语言中所有的词出现在词典中,音译英文姓名、地名往往不存在汉语词典中,分词的结果会使这些词的翻译不准确。另一方面,我们不妨假定词典生成这一工作从头做起,而不使用部分已释义的“释义词典”。本文给出一个行之有效的统计方法,自动生成英法词典。此方法仅依赖对齐的双语语库,而不采用其它资源,在《圣经恢复本-中英文对照版》上取得良好的实验结果。2英英英汉汉汉词词词典典典自自自动动动生生生成成成方方方法法法在这一节里,提出一种基于中英文对齐语料库的英汉词典自动生成的方法。基于这样一个原始的思想:给出英文单词,在双语语料库中查出所有包含该词的句,从这些
5、句的中文翻译中,寻找高频出现的公共词语,另一方面,从中取出在整个语料库中低频出现的,这些词语与该英文单词共生共灭,它们有较大的概率成为该单词的中文释义。2.1给给给定定定英英英文文文单单单词词词,,,挖挖挖掘掘掘中中中文文文翻翻翻译译译在叙述这一过程之前,我们假定对齐的双语语料库已采集好,共有n句,用集合M表示,M=f(E1;C1);(E2;C2);:::;(En;Cn)g(1)其中(Ei;Ci)表示一句英文Ei对应它的中文句Ci。给定查询单词w,第一步操作是创建候选释义集。例如给出查询单词“China”,认为它的可能的中文释义“中国”一定出
6、现在包含“China”的那些句子的中文翻译里,于是,先采集出这些句。令W是英文句中包含w的句集合,W=f(E;C)jw2E^(E;C)2Mg(2)2显然,W2M(3)下一步是从候选句中枚举所有的候选中文词。如果一句中文包含m个汉字,如果认为中文词可以任意长,则可以从这一句中搜取出m(m+1)=2个不同位置和长度的子串。由于O(m2)的中文词量,数据量过大,另一方面,根据我们平常的经验,在词典中出现的常用中文词长度不会太长,于是可以做一点假设,设定阈值k为候选中文词的最大长度。给定一个中文句,将长度小于等于k的中文词枚举出来,做进一步考虑。记f
7、k(C)为枚举单句中文释义操作。该操作将一个中文句C中一切长度分别为1,2,3,...,k的中文子串截取,滤除包含标点符号的子串。那么,对于英文单词w,其所有可能中文释义集合Fw定义为:[Fw=fk(C)(4)(E;C)2W怎样从Fw中选出w的最可能的释义呢?这里采取的方法是对每个词进行评分。对于给定语料库M、给定英文查询词w、给定的候选中文释义c,定义:²基频数nw:查询英文单词w在M的出现次数,基频数用来作为评分的参考。²共生频数nw;c:候选中文释义c在W的出现次数。²衍生频数nc:候选中文释义c在M的出现次数。分别定义共生概率p(c)
8、,衍生概率q(c):nw;cp(c)=(5)nwncq(c)=(6)nw;c如上分析可知,p值高表明出现w的句也出现c的概率大;q值低表明不出现w的句出现c的概率小
此文档下载收益归作者所有