基于.web的双语资源的分析平台开发

基于.web的双语资源的分析平台开发

ID:33328617

大小:1.23 MB

页数:40页

时间:2019-02-24

基于.web的双语资源的分析平台开发_第1页
基于.web的双语资源的分析平台开发_第2页
基于.web的双语资源的分析平台开发_第3页
基于.web的双语资源的分析平台开发_第4页
基于.web的双语资源的分析平台开发_第5页
资源描述:

《基于.web的双语资源的分析平台开发》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基丁,Web的双语资源分析平台开发第一章引言从西方语料库的发展情况来看,语料库的辅助工具从电子语料库时代开始,就一直对语料库的发展有极大的推动。而且随着语料库的发展,语料库的辅助工具有着系统化、平台化的发展趋势。国内语料库建设始于二十世纪八十年代,直接从第二代电子化语料库起步,当时主要目的是汉语词汇的统计研究,借鉴了国外很多成熟的研究成果,如语料库的存储模式和统计方法等。.九十年代以后,语料库在自然语言信息处理领域得到了广泛的应用,建立了各种类型的语料库,研究的内容涉及语料库建设中的各个问题。九十年代末N-十一世纪初是语料库开发和应用的进一步发展时期,除了语言信息处理和语言工

2、程领域以外,语料库方法在语言教学、词典编纂、现代汉语和汉语史研究等方面也得到了越来越多的应用fs】。我国语料库建设起步虽晚,但成绩斐然,仅从1998年到2003短短5年间,投入建设或者开始使用的语料库就有数十个[91。这些语料库根据不同的应用目的分为9种类型,表1.1介绍了不同类型语科库的数量以及名称。表1.11998"--2003年投入建设或开始使用的语料库序号语料库类型数量语辩库名称1大型现代汉语通用语料库1现代汉语通用语料库2现代汉语标注语料库1·《人民日报》标注语料库,用于语言教学和研究的3现代汉语语料库面向语肓信息处理的4现代汉语语料库用丁J开发特定语言分析技5术的

3、专用语料库6双语语料库汉语中介语语料库3现代汉语研究语料库现场即席话语语料库l信息处理用现代汉语分词词表山西人学专有名词标注语料库2山两火学分词与词性标注语料库哈:『:大汉英平行谱料库7面向汉语史研究的语料库28比较语料库9少数民族语言语料库l54中科院计算所汉英双语语料库(句对)中科院软件所汉英双语语料库(句对)中科院自动化所汉英双语短语库东Jb大学英汉双语语段库台湾中央研究院占汉语语料库中国社会科学院语言研究所香港城市人学LIVAC共时语料库新疆犬学现代维吾尔语语料瘁新疆师范大学维吾尔语语料库基y-Web的双语资源分析平台开发第一章引言内蒙古人学中世纪蒙古文语辩库砖北比族

4、人学人型藏文语辩库申国社会科学院l咕族学与人类学研究所藏语语料库在表1.1中列出的9种类型共21个语料库中,双语语料库共5个,主要是汉语和英语的,分别是哈工大汉英平行语料库、中科院计算所汉英双语语料库、中科院软件所汉英双语语料库、中科院自动化所汉英双语短语库和东北大学英汉双语语料库,占了所列语料库总数的23%,如图1.1。可以看出英汉双语语料库的发展十分迅速,这主要有两方面因素:一方面是有着英汉双向机器翻译需求的牵引,基于实例(Example—Based)机器翻译需要大规模的双语平行语料库来支持;另一方面是有着适当的辅助工具的推动,在语料库中,源语和目标语实例要按照相同级别的

5、翻译单位二一对齐,对齐的单位有句子级、子句级、短语级和词汇级等。对于大规模的语料对齐而言,纯手工方式工作量巨大,几乎是不可完成的任务,因此通过合适的语料库的辅助工具完成语料的对齐任务是通常的做法,取得的效果也是显著的。幽1.1再类型语料库所占比例圈在Intemet飞速发展、信息海量增长的今天,语料库及其辅助工具主要的发展趋势表现为以下几个方面:1、Web语料库的流行Web上的海量信息,本身就是极为丰富的语料资源。从Web上获取生语料成为近年来非常流行的生语料获取形式,这类语料库通常称之为Web语料库。Web语科库获取生语料的基本方式是,基于指定的URL或URLs,自动通过We

6、b协议将这些URL上的语料资源采集过来,与本地机的语料库系统连接,实时联5基丁Web的双语资源分析平台开发第一章引言机地充实语料库。2、双语平行语料库的流行为了满足对机器翻译的强烈需求,双语平行语料库逐渐流行㈣。双语平行语料库是基于实例翻译系统的重要知识库,为了提高翻译系统的翻译质量和实用化程度,建立大规模的双语平行语料库是重要的基础工作。3、趋向于获取高质量的生语料面对web上海量的语料,语料库建设现在已经不单纯的追求规模的增长,对于生语料的质量要求也越来越高。一方面Web上不同站点发布的信息质量有很大的差异;另一方面不同类型站点发布的语料信息也有这不同的适用程度。因此对于

7、语料的选取应当有所取舍,保证从源头上提高语料的质量。另外某些web上发布的语料在一定程度上能够经过简单格式处理,便能直接的获取需要的信息。部分翻译类网站(如翻译中国)发布的双语词汇直接经过简单的格式处理便可作为双语词典应用的语料。因此对于一些简单的、目的明确的应用,可以在Wcb上找到最直接的语料获取来源。4、语料库辅助工具的自动化、平台化一方面,面对着规模越来越大的语料库,依靠手工的方法已经难以胜任,必须依靠自动化的辅助工具。另一方面,对于语料库建设全过程的辅助也成为了语料库辅助工具发展的重要方向,语料

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。