欢迎来到天天文库
浏览记录
ID:33331681
大小:1.14 MB
页数:8页
时间:2019-02-24
《古今汉语平行语料库的语料构建》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、第18卷现代教育技术Vol.182008年第1期ModernEducationalTechnologyNo.12008*古今汉语平行语料库的语料构建1323宋继华胡佳佳孟蓬生王宁(1.北京师范大学信息科学与技术学院,北京100875;2.中国社会科学院语言研究所,北京100875;3.北京师范大学文学院,北京100875)【摘要】古今汉语之间的明显差异使得以古代汉语为载体的传统典籍难以被现代人理解。古今汉语平行语料库的建设旨在为希望了解中国传统思想文化的普通读者及相关学科专家提供阅读、翻译、检索古代汉语典籍的平台。语料的构建是语料库建设
2、的基础,本文从古今汉语语料的设计、采集、格式化存储、双语对齐与XML标注等方面详细介绍了如何系统地构建大型古今汉语平行语料库中的开放资源。【关键词】古今汉语;平行语料库;语料;XML标注;句子对齐【中图分类号】G40-057【文献标识码】B【论文编号】1009—8097(2008)01—0092—08一缘起影响较大的是与Freiburg-LOBCorpusofBritishEnglish(即②FLOB)平行对应的汉语语料库LCMC(TheLancasterCorpus“汉语是世界上正在使用的语言中最古老的语种之一。ofMandarinC
3、hinese)。国内的主要研究有北京大学计算语言汉语古籍无论是数量还是涉及的范围及其历史跨度,在世界学研究所的汉英双语语料库以及北京外国语大学拥有的目前①上都是无与伦比的。”灿烂悠久的中国思想文化,通过这些[1]国内最大的双语平行语料库(含汉英和汉日两个库)等。就典籍得以保存、传承,在历经千载的延续过程中,又得后人目前来看,国内外涉及汉语的平行语料库基本上都是现代汉的认识和研究,融入新的内涵,由此构筑了中国的古代文明。语与外语的平行语料库,鲜见有影响的、大规模的古今汉语今天,这些承载着中华民族灿烂文明的典籍仍在被广泛地使平行语料库。用着
4、,尤其在人文学科领域的应用价值更是显而易见。同时,就应用层面而言,古今汉语平行语料库的价值主要体现随着大众文化水平的提高、经济的发展与对外往来的增加,在:⑴为古今汉语的机器翻译或机器辅助翻译提供基础资越来越多的非专业人士希望深入了解中国传统的思想文化,源。古今汉语平行语料库中对齐的语料或作为翻译资源使用,但古代汉语与现代汉语之间存在着的明显差异使得很多现代或用作翻译统计建模的训练资源。⑵为古汉语教学与古今汉人难以理解以古汉语为载体的传统典籍。有鉴于此,我们提语对比研究提供基础资源。普通用户通过该平台的阅读、翻出要建设一个大型、开放的古今
5、汉语平行语料库及其应用平译、查询功能,既可以随时获取他们需要的有关古代典籍和台,为古籍整理和翻译(含机器翻译或机器辅助翻译)、古代文化的信息,也可以接受系统的古代汉语专业训练。研究人汉语教学与研究以及辞书编纂提供基础资源,为需要了解中员则可以通过检索统计在语境中把握特定词或结构的语义和国传统思想文化的普通读者及相关学科的专家提供阅读、翻句法特征,观察古今汉语之间的传承关系,归纳古今汉语的译、检索、统计服务,并为与现有的汉英双语语料库的对接发展规律。⑶提高古今汉语辞书的编纂质量和效率。到目前奠定基础,从而为实现古汉语和英语的翻译(含机器翻
6、译或为止,还没有基于大型语料库的古代汉语和现代汉语辞书问机器辅助翻译)创造条件。世。该语料库及应用平台的构建将为辞书编纂中经常遇到的平行语料原指使用不同语言撰写、相互间具有“翻译关字频和词频的统计、字头和词目的确立、书证和用例的选择、系”的文本,本文将其延展为基于同一语言且不同历史时期字义和词义的表述等技术操作提供客观依据,从而为这类辞兼具有“翻译关系”的文本,就汉语而言,即指“古今汉语”。书的问世创造条件。平行语料库已被系统地应用到自然语言处理中,包括建立翻与现有的一些语料库相比,古今汉语平行语料库的特点译记忆、编纂词典和双语术语表、
7、跨语言信息检索、计算机是:⑴两种语料的平行对应性(古代汉语与现代汉语);⑵服辅助教学、语言对比研究等。国外涉及汉语的平行语料库中——————————收稿日期:2007年9月18日92务对象的广泛性(普通人群与专业研究人员);⑶实用性(研⑸开放性(可以随时增加语料)。它的建设主要包括语料的究价值与应用价值兼顾);⑷通用性(采用XML标注体系);构建、组织与应用平台的开发三个方面。图1古今汉语平行语料库构建模型二语料的构建《国语》、《战国策》各有独特的成就,对后世有着深远的影响;《古文观止》中《左传》有三十四篇、《国语》十四篇、《战筹建语料
8、库之初,首先应考虑的是语料库的建设目标,③国策》十一篇,共占先秦部分的百分之九十五以上。有鉴于这样才能决定选择语料的范围、分布、规模,建立可查询的此,我们采用了先秦的三部史书《左传》、《国语》、《战国策》[
此文档下载收益归作者所有