欢迎来到天天文库
浏览记录
ID:20537048
大小:56.00 KB
页数:4页
时间:2018-10-12
《网页标记文本和存文本的翻译方法》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、网页标记文本和存文本的翻译方法 一、引言 当进行X页文本的翻译时,翻译系统会遇到两大类型的问题:如何在翻译文本中插入标记并如何正确翻译翻译文本。第一个问题需要系统来正确处理所有的标记,否则可能会导致无法阅读的翻译文本。而第二个问题则需要一个大型的语料库来分析文本的意义并避免歧义。如果成功地处理这个问题,系统可能会译错,这将是我们以后处理的重点。 本文中将设计一个机器翻译系统来进行X页的中英互译,首先处理有标记文本然后再进行非标记部分的翻译。 二、X页标记文本的翻译方法 对于文本,显然不能将标记(tag)与文本分开,先翻译文本然后再插入相应的标记,因为中英文语言不总是
2、一一对应。如果这样处理,图一将会变成(<p>约翰是一个<u>李老师的学生</u>)。这显然是不可接受的。因此需要换一种方式来处理这个问题。 需要首先标记和文本块,然后再分别翻译纯文本和标记。然后系统会将其与目标语言的文本相比较。如果目标文本与源本完全吻合,就不存在问题。我们只需要将目标文本部分相应的地方做标记。如果目标文本与源文本不完全一致,系统必须找到相互需要标记的标记文本,然后再加入需要的tag。 (一)tag的分类 中有不同的tag,而在机器翻译中可以简单地把它们分成两类: 第一类:voidtags(VT:无类型标记)。V
3、T是指标记中不影响文本块,也不需要结束标记。这种标记的例子是图片(IMG),图二里就包括一个IMG第二类:Realtags(RT:真实标记)。RT是指标记中会影响文本块并需要一个结束标记(当然某些特定类型也不是必需的)。这种标记也分成几大类: (1)总体X页结构标记:这些标记对于定义X页的整体结构是必需的。这类标记如:,HEAD,TITLE和BODY。 (2)影响页面独立的标记:这些标记会影响到页面的完整与独立,换句话说这些标记不能被用来影响单个词和句子,这类标记如FORM,UL,OL,SELECT。 (3)字符强调标记:这类标记用来强调词、部分句子甚至整个段落,如EM
4、,B,I和U。 (4)超文本和超链接:这类标记是将当前文本转向其他页面。上的大多数文本都是用写的,RL主要用来描述多媒体信息的链接,比如图片。用户不仅需要阅读文本的字符串,还需要通过图片信息与强调部分来理解其内容。所有这些信息在机器翻译时都需要保留。 (二)标记管理器 X页文本同其他普通文本不一样,是通过将信息编码到文本类型定义(DTD)中,这是SGML(一般语言组成标准)的应用。标记本身不需要通过机器翻译系统来翻译,但是他们必须在翻译后保留在合适的地方。在系统里有一个标记管理器(TM),它会将句子看成是一个整体而不会将其分开,因此在翻译X页时有两种方法来处理这些标
5、记。 第一步:标记分离。在标记分离阶段会用到文本的信息框架和标点符号。下面是TM如何处理这些标记分离。 (1)起始与结束标记必须保留(如<A>,</A>,<TITLE>,</TITLE>)。 (2)如果一对标记中有好几个句子,必须通过标点符号来分离。 (3)一个表格块中的每一项都被当成是一个句子。 (4)空行后的复合名词或短语被认为是一个标题。 标记会被筛选出来并存储到一个外部文件中,里面包括句子数、词数、词、起始标记、结束标记以及FI(标记信息)。完成这些操作后,系统就能正确理解不同标记并将其当成句子而不是短语来处
6、理,以免出现误解。 第二步:标记恢复。如果目标词与源语言的词一一对应,就不需要恢复。但是情况并非总是如此。更一般的情况是,会碰到1对N或者N对1又或N对M的情况。这种情况下,翻译时,译者不会处理完整的标记,只需要处理词串信息。TM保留所有的标记,文本翻译后,TM通过以下的方法将标记恢复到目标语信息中。 (1)1对N:源语言的词的起始和结束标记直接复制到目标语中。 (2)N对1:TM分析源语言的起始和结束标记,然后根据序列信息确定需要保留的标记(如<A>,</A>,<TITLE>,</TITLE>)。在此过程中,内部标记如大
7、小和颜色标记会被忽略。 (3)N对M:通常这种情况会发生在成语中。正如N对1的情况,TM分析源语言词的标记。然后TM会决定起始和结束标记。在此过程中,某些颜色和大小的标记可以被排除。 (三)标记文本的翻译 图三表明标记文本的不同情况。句子1和2是标记文本在源语言和目标语中都会出现的例子。句子3是标记文本在目标语中会出现在不同的地方,而句子4则是标记文本不会出现的例子。 这些句子表明必须要选择一个模型能够使电脑决定目标语文本的哪个部分需要标记。有不同的方法来完成这个模型。在我们的模型中,可以分
此文档下载收益归作者所有