欢迎来到天天文库
浏览记录
ID:50952081
大小:246.09 KB
页数:3页
时间:2020-03-16
《如何创建一个英汉双语语料库?如何创建一个任意两种语言的语料库?.docx》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、如何创建一个英汉双语语料库?如何创建一个任意两种语言的语料库?构建一个英汉双语语料库的主要步骤如下:1、语料准备。准备英汉对照的双语文档。可以是两个文档,其中一个英文,一个中文;也可以是英中上下对照或左右对照的单文档。无论是双文档还是单文档,都要注意原文与译文需要严格对照,这是后续软件识别的重要基础。文档格式可以是office系列格式等,但最好是word这种简单的容易识别的格式。如:我们在word中准备一篇英中双语对照的文档。2、语料对齐。关于语料对齐,我以前专门写过一篇文章:如何用最简单的方法创建双语平行语料库?
2、里面讲了几种对齐工具,我推荐的是Tmxmall在线对齐。Tmxmall对齐功能的具体操作步骤我也写过文章,可参考:双语平行语料库人工对齐工具说明│TmxmallAligner我们准备好的英中文档对齐效果如下,将对齐好的文档导出,存为tmx格式。3、在trados等CAT工具中新建翻译记忆库,把之前保存好的tmx文件导入即可。以上就是自己构建一个英汉双语语料库的方法。上述方法同样适用于建立中英语料库或其他任意语言对的语料库,如俄中、中俄、中葡、中日等等,只要在操作的时候选择对应的源语言和目标语言即可。除了自己对齐语料
3、存为tmx格式外,也可以直接购买Tmxmall公有云包月服务(里面有千万级句对的语料资源可供翻译时提取),或在Tmxamll语料商城上按需购买其他人放上去的各专门领域的语料库。
此文档下载收益归作者所有