欢迎来到天天文库
浏览记录
ID:10489620
大小:102.00 KB
页数:19页
时间:2018-07-06
《中国语料库研究的历史与现状的论文》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、中国语料库研究的历史与现状的论文语言学的研究必须以语言事实作为根据,必须详尽地、大量地占有材料,才有可能在理论上得出比较可靠的结论。传统的语言材料的搜集、整理和加工完全是靠手工进行的,这是一种枯燥无味、费力费时的工作。计算机出现后,人们可以把这些工作交给计算机去作,大大地减轻了人们的劳动。后来,在这种工作中逐渐创造了一整套完整的理论和方法,形成了一门新的学科——语料库语言学(corpuslinguistics),并成为了自然语言处理的一个分支学科。语料库语言学主要研究机器可读自然语言文本的采集、存储、检索、统计、语
2、法标注、句法语义分析,以及具有上述功能的语料库在语言定量分析、词典编纂、作品风格分析、自然语言理解和机器翻译等领域中的应用。多年来,机器翻译和自然语言理解的研究中,分析语言的主要方法是句法语义分析。因此,在很长一段时间内,许多系统都是基于规则的,而根据当前计算机的理论和技术的水平很难把语言学的各种事实和理解语言所需的广泛的背景知识用规则的形式充分地表达出来,这样,这些基于规则的机器翻译和自然语言理解系统只能在极其受限的某些子语言(sub-language)中获得一定的成功。为了摆脱困境,自然语言处理的研究者者们开始
3、对大规模的非受限的自然语言进行调查和统计,以便采用一种基于统计的模型来处理大量的非受限语言。不言而喻,语料库语言学将有可能在大量语言材料的基础上来检验传统的理论语言学基于手工搜集材料的方法所得出的各种结论,从而使我们对于自然语言的各种复杂现象获得更为深刻全面的认识。本文首先简要介绍国外语料库的发展情况,然后,比较详细地介绍中国语料库的发展情况和主要的成绩,使我们对于语料库研究得到一个鸟瞰式的认识。.cOm一、国外语料库概况现在,美国broarking)。ahi语料库:美国heritage出版社为编纂heritage
4、词典而建立,有400万词。ota牛津文本档案库(oxfordtextarchive):英国牛津大学计算中心建立,有10亿字节。bnc英国国家语料库(britishnationalcorpus):1995年正式发布,使用tei编码(textencodinginitiative)和sgml通用标准置标语言的国际标准(thestandardgeneralizedmarkuplanguage,iso8879,1986年公布)。acl/dci美国计算语言学学会数据采集计划:美国计算语言学学会(theassociationfo
5、rputationallinguistics,acl)倡议的数据采集计划(datacollectioninitiative,dci),其宗旨是向非赢利的学术团体提供语料,以免除费用和版权的困扰,用标准通用置标语言sgml统一置标,以便于数据交换。ldc语言数据联合会(linguisticdataconsortium):设在美国宾州大学,实行会员制,有163个语料库(包括text的以及speech的),共享语言资源。rinar。最近的一次seminar在lubljana,(slovenia)召开(22.septemb
6、er–26.september.2000),主题是从语料库中自动抽取知识(automaticknopolli担任主席,elra负责搜集、传播语言资源并使之商品化,对于语言资源的使用提供法律支持。elra建立了欧洲语言资源分布服务处elda(europeanlanguageresourcesdistributionagency),负责研制并推行elra的战略和计划。elra还组织语言资源和评价国际会议lrec(languageresourcesevaluationcongress),每两年一次。第一次会议于1998年
7、在西班牙的grenade举行;第二次会议在athens(greece)召开(31.may–02.june.2000),第三次会议于2002年在西班牙的laspalmasdegrancanaria召开(27.may–02.june2002)。二、我国语料库的发展概况(一)早期的汉语语料库1、我国语料库研究的先河在我国,从20世纪20年代开始,就有学者建立文本的语料库,采用统计的方法来研究汉字的频率,其目的在于制定基础汉字的字表。当然,这样的语料库不是机器可读的,规模也很小,它是现代语料库的雏形,开我国语料库研究的先河
8、,在我国语料库的发展史上是功不可没功的。著名教育学家陈鹤琴为了教学的目的,在对语料统计的基础上,编写了《语体文应用字汇》,于1925年完成,于1928年由商务印书馆出版,陈书前有“绪论”,说明“中文应用字汇”曾有多种,其中包括p.克仑茨(pastorp.kronz)的研究和他自己的编写的《常用四千字表》。陈鹤琴做过两次统计,第一次统计使用了六种材料,包含55
此文档下载收益归作者所有