英汉双语平行语料库人工对齐方法说明

英汉双语平行语料库人工对齐方法说明

ID:2080456

大小:262.50 KB

页数:8页

时间:2017-11-14

英汉双语平行语料库人工对齐方法说明_第1页
英汉双语平行语料库人工对齐方法说明_第2页
英汉双语平行语料库人工对齐方法说明_第3页
英汉双语平行语料库人工对齐方法说明_第4页
英汉双语平行语料库人工对齐方法说明_第5页
资源描述:

《英汉双语平行语料库人工对齐方法说明》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、英汉双语平行语料库人工对齐方法说明2006年12月18日1.概述半自动英汉双语平行语料库的对齐分为两个过程:第一个过程是先将两种语言的文本分成句子,每个句子占一行。句子定义为:以句号、问号、感叹号、分号结尾的一串字符,或以句号+引号、问号+引号、感叹号+引号等结尾的一串字符。“行”的概念是一串以回车换行符结尾的字符。这个过程可以采用任何一种具有“查找”和“替换”功能的文字处理软件来完成,也可以编程由计算机自动完成。第二个过程是在第一个过程产生的结果的基础上以手工方式将两种语言的文本在句子水平上对齐。这一过程要采用UltraEdit软件来辅助完成。

2、在句子水平上对齐两种语言的文本,除了要注意以上对“句子”和“行”的定义以外,还应遵循一个重要的原则,即:如果两种语言的文本在句子的切分上有差异,应尽量保持原文句子不动,调整译文以适应原文。为了能从双语平行语料库中获取更多的信息,还需要在对齐过程中插入少量的标记,例如:分译标记、合译标记、混译标记和移动标记等。此外,为了便于以后的检索,对于过长的句子还要在适当的地方将长句截短成两个或更多的小句。2.人工对齐的方法2.1打开文件先用UltraEdit软件将两个已经分为句子的文本文件打开,在该软件的工具栏的“窗口”下拉菜单中点“水平平铺”选项,使两个打

3、开的文本同时显示在屏幕上。为了操作方便,一般把原文放在上半屏,把译文放在下半屏。(见图1)2.2上下移动文本为了能够对齐两种语言的文本,在操作过程中需要不断地上下移动文本。移动文本可以用鼠标移动窗口右边的滑块来完成。也可以将光标放在某一行,然后用鼠标的中间滚轮来上下移动。2.3同步移动上下两个窗口中的文本8在“窗口”下拉菜单中选“同步”选项,就可以同步移动上下两个窗口中文本,极大地方便人工对齐的操作。图1:用UltraEdit同时打开两种语言的文本。2.4译文句子的合并如上所述,对齐的原则是尽量保持原文不变。因此,如果译文的句子和原文不符,就需要

4、调整译文,使其能与原文对齐。如果原文的一句话在译文中被拆成两句话,即译文分为两行(见图2),应该将译文中的光标放在第二行的开始处,然后按“倒格键”(Backspace),将第二行拉回到上一行的结尾处,使译文的两句处于同一行上。[原文]这时候——这天堂般五月的傍晚,有三辆一九三○年式的雪铁龙汽车像闪电一般驶过了外白渡桥,向西转弯,一直沿北苏州路去了。[译文]ItwasaperfectMayevening.Three1930-modelCitroens,flashedoverthebridge,turnedwestward,andheadedstra

5、ightalongtheNorthSoochowRoad.图2.原文一句,译文两句。8如果译文是英语,将第二行拉回到上一行时,要注意第一行末尾的标点符号与原来第二行的第一个单词之间应该有一个空格。如果没有,应按一下“空格键”(Spacebar)加入一个空格。然后在两句之间加入一个“分译”标记-SEPA-。分译标记后要加入一个空格(见图3)。[原文]这时候——这天堂般五月的傍晚,有三辆一九三○年式的雪铁龙汽车像闪电一般驶过了外白渡桥,向西转弯,一直沿北苏州路去了。[译文]ItwasaperfectMayevening.-SEPA-Three1930

6、-modelCitroens,flashedoverthebridge,turnedwestward,andheadedstraightalongtheNorthSoochowRoad.图3.译文按照原文合并在一行上,在原拆分处加“分译”标记-SEPA-。如果译文是汉语,第一行末尾的标点与第二行第一个汉字之间没有空格。如果有空格要删除。同时,也要加入“分译”标记,但是标记的前后没有空格。合并两行还可以采用另一种方法,可以先将光标放在第一行的末尾,然后按“删除键”(Delete)将第二行“拉”到上一行来。但是,也要注意空格问题和加入“分译”标记。2

7、.5译文句子的拆分如果原文的两句话在译文中被译作一句话(见图4),应该先确定在译文中拆分的位置,然后将光标放在译文需要拆分的字或词之后,按“回车键”(Enter)即可将译文拆成两行。拆分后应在第二行的开始处加上“合译”标记-MERG-,表示译文原来是合译成一句话。如果译文是英语,应该在“合译”标记后面加一个空格,如果译文是汉语则可不加空格(见图5)。[原文]男的是五短身材,微胖,满面和气的一张白脸。女的却高得多,也是方脸,和三老爷有几分相像,但颇白嫩光泽。[译文]Themanwasshortandstoutishwithablandandpall

8、idface,whilethewomanwasmuchtaller,andboreacertainresemblancetotheoth

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。