欢迎来到天天文库
浏览记录
ID:23631671
大小:81.00 KB
页数:22页
时间:2018-11-09
《机器翻译中汉语动结式生成的过程和困难》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、机器翻译中汉语动结式生成的过程和困难1.引言 当电子计算机1946年问世的时候,人们就提出了机器翻译的想法,并且在1954年进行了第一次机器翻译试验。然而与后来的各种语言信息处理研究和应用(语言信息检索、文本自动分类、自动文摘、信息提取等等)相比,机器翻译却是进展最慢的。学者们倾其大半生精力、商家投入为数可观的资金,经历五十多年不懈的研究和开发,得到的成果或者产品却常常不能令人满意。 原因是什么呢?从语言研究的角度来说,机器翻译系统分析、理解和生成自然语言的能力都还不到位,处理不了的语言现象很多:有的是句子结构层次弄错
2、了,有的是结构关系弄错了,有的是成分之间的语义关系弄错了,有的是词义辨识错了,还有的错误是源语和目标语之间的对比差异造成的。下面是机器翻译处理汉语动结式不成功的几个例子(来自三个机器翻译系统)。.L.编辑。 先看生成的情况,机器翻译目前还很难生成汉语的动结式,所以我们很少在汉语译文里见到含有动结式的句子。对于下面这个英译汉的例子,三个系统都不能翻译成“他把地扫干净了”:Heskickspoil3pairsofshoes.这段路把妈妈走累了。*Theakemothertiredaftertheothertired(ly).
3、 *Thisroadmother. 我们在这里只讨论生成的情况。在这种情况下,源语(例如英语)往往没有相当于汉语动结式的结构形式,也很难用转换规则把英语的某些结构形式与汉语动结式联系起来。所以除非用个别处理的办法,采用直接法和转换法翻译策略的系统很难生成汉语的动结式译文。要让系统有生成动结式的能力,就要按中介语言法的思路,增加分析的深度,理解源语句子要表达的意思(各个成分的概念意义、成分之间的关系意义,句子的句式意义,等等),然后根据意义表达的需要,选择动结式的一种结构形式,再生成表层的句子。目前我们对汉语
4、的研究还不足以支持这样的生成过程。所以在现有的机器翻译系统输出的汉语译文当中,很难找到地道的含有动结式述补结构的句子。于是就有了下面的译文: Hehasmadethequestionplicated.他已使问题复杂化。(他把问题搞复杂了。) Thechildrenhavehadenoughtoeat.孩子们已吃了足够。(孩子们吃饱了。) 这样的译文对机器翻译来说就算不错了,只是念起来有些别扭,有点“机器味儿”。 3.动结式的生成过程 机器翻译译文生成的任务是从要表达的意义出发,经过选择词语、确定词语间的语义关
5、系、确定目标语句子的句法结构等步骤,最终输出与源语言句子在意义上等价的表层字符串。对于动结式的生成,有以下几步: (一)确定要表达的意思 (四)整合语义结构 (二)选择词语、分派语义角色 (五)选择句法表现形式 (三)判断合法性 (六)处理表层词语 3.1 制定要表达的意思 汉语动结式述语结构表达的是一种“动作—结果”事件。比如要生成的意思是:小王读了这篇文章,结果小王懂了这篇文章。在汉语生成开始之前,机器翻译系统用中介语言逻辑表达式表示要生成的译文是什么意思。一般来说,如果这个表达式里面有
6、两个谓词结构,并且二者之间有“动作—结果”关系,就可以进入汉语动结式的生成过程。 中介语言逻辑表达式是从源语(譬如英语)分析得到的,源语中的述谓结构和“动作—结果”关系会在表达式中有所体现。但这并不是判断能否生成汉语动结式的惟一依据。我们在上一节提到,英语往往没有相当于汉语动结式的结构形式,也很难用转换规则把英语的某些结构形式与汉语动结式联系起来,这是就句法结构来说的。实际上,由于英、汉语之间在“动作—结果”关系表达上的差异,(注:戴浩一(2002)指出:“动作—结果”基模虽然在汉、英语中都存在,但是在汉语中占主导地位,
7、而在英语中占次要甚至边缘地位。而且,这个基模在两个语言对客观情况的构建上也因经验的概念化不同而呈现不同的形式。)在从源语分析得来的语义表达式里,可以用汉语动结式生成的“动作—结果”关系有时是隐含的,与此相关的述谓关系也有不同的表现形式。比如: 英语对动作对象的描写在汉语中有时可以表达成动作的结果: Shemarriedthee. 我英语学晚了。It. 沙发把你坐懒了。Youarebeinglazyonthesofa. 所以我们需要一组规则,在要生成的语义表达式里判断有没有应该用汉语动结式表达的述谓关系。在这组规则
8、里,除了两个谓词结构及其显性的“动作—结果”关系符合判断条件以外,还应该有能够识别和提取隐含的“动作—结果”关系及其述谓结构的条件。这就需要研究英语和汉语在表达“动作—结果”关系时的差异。这种差异有时在某种类别下表现出来,有时又很个性化,只跟具体词语有关。目前机器翻译系统还没有找到这样的规则。所以我们就
此文档下载收益归作者所有