资源描述:
《小型英汉平行语料库的建立与运用》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第27卷第3期解放军外国语学院学报Vol.27No.32004年5月JournalofPLAUniversityofForeignLanguagesMay2004小型英汉平行语料库的建立与运用谢家成(长江大学外国语学院,湖北荆州434100)摘要:英汉平行语料库的建设具有一定技巧性,掌握基础计算机知识并通过实践能迅速掌握其建设方法。平行语料库运用十分广泛,对外语教学和研究及学生自主学习、双语对比研究、翻译等都具有很好的辅助作用,这在笔者自建的规模约600万词的英汉平行语料库的实际运用中得到了充分体现。关键词:英汉平行语料库;文本对齐;标注;运用中图分类号:H319.3文献
2、标识码:A文章编号:10022722X(2004)0320045204ConstructionandApplicationofaSmallEnglishandChineseParallelCorpusXIEJia2cheng(CollegeofForeignStudies,YangtzeUniversity,Jingzhou,HubeiProv.,434100,China)Abstract:AsmallEnglishandChineseparallelcorpusisveryusefulforlanguageteachingandlearning,cross2langua
3、gestudiesandtranslation.Thepresentauthorhasbuiltupacorpusofsixmillionwords.Thispaperisintendedtointroducesomeofthetechniquesinitsconstructionanddemonstratetheusestowhichitcouldbeputto.Keywords:EnglishandChineseparallelcorpus;alignment;tagging;application1.引言2.英汉平行语料库的建设语料库语言学已广泛运用于语言研究与教学
4、。由于双语语料收集和对齐整理有一定难度,英近年来,平行语料库(ParallelCorpus)因其独特功汉平行语料库的建设比单语语料库建设要艰难许能正日益受到人们关注。平行语料库属双语语料库多,但个人建设小型英汉平行语料库仍然可行。建(BilingualCorpus),是指能将源语文本和其译语文设者只需一些文本编辑、格式转换、内码转换等基本进行全文检索并对照显示的语料库。较之词典和础计算机知识即可。笔者经过两年多努力就建成了单语语料库有其独特优势,如双语对照、语言实例规模达600万字词的个人英汉平行语料库。平行语数量多、语域广、时效性强、语境丰富等。可广泛料库主要由两部分组
5、成:以电子文本形式存贮于计运用于翻译研究与培训、双语对比、双语词典编纂算机中的平行语料和管理检索这些语料的定位检索等,(丁树德,2001)也可用做各种课型的外语教学软件,语料库建设也从这两方面进行。和学生自主学习辅助平台(包括对外汉语教学)。(1)定位检索软件目前西语间平行语料库发展较快,在国内,北京外网上可免费下载支持Windows环境和汉语语料国语大学也建成了规模约2,000万字词的大型句对的平行语料库检索软件不多。Paraconc(测试版齐英汉平行语料库,(王克非,2003)不过大众能接110,http://www.ruf.rice.edu/~barlow/para
6、c.html)触到的则很少。互联网上有一定参考价值的英汉平由著名语料库专家MichaelBarlow设计,软件虽小,行语料库有中科院计算所软件研究室开发的双语句功能十分强大:支持多种形式双语对照检索,如通对数据库(http://mtgroup1ict1ac1cn/corpus),但配符和指定跨距检索、检索速度快、能灵活排序、其语料有限,且仅提供简单检索,每个用户最多只检索语料大小无限制且文本装载方便。能检索3,000条语句,无法满足语言学习与研究的(2)英汉平行语料的准备需求。建立语料库,规划很重要。其中建库目的尤为收稿日期:2003-08-10作者简介:谢家成(1969
7、-),男,湖北荆州人,长江大学外国语学院讲师,本科,主要研究方向为电化教学、语料库、教学法。©1994-2009ChinaAcademicJournalElectronicPublishingHouse.Allrightsreserved.http://www.cnki.net·46·解放军外国语学院学报2004年重要,直接影响语料库类型、规模、语料选取和整“格式项目符号”分别在每段前加上一个符号,理等。“教学”这一目的决定了英汉平行语料库类这里选数字,这样两个文本每段前都分别加上了段型为兼收并蓄的全文语料库,语料构成比例要