欢迎来到天天文库
浏览记录
ID:10787369
大小:74.50 KB
页数:0页
时间:2018-07-08
《中国语料库研究的历史与现状论文》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、中国语料库研究的历史与现状论文语言学的研究必须以语言事实作为根据,必须详尽地、大量地占有材料,才有可能在理论上得出比较可靠的结论。传统的语言材料的搜集、整理和加工完全是靠手工进行的,这是一种枯燥无味、费力费时的工作。计算机出现后,人们可以把这些工作交给计算机去作,大大地减轻了人们的劳动。后来,在这种工作中逐渐创造了一整套完整的理论和方法,形成了一门新的学科——语料库语言学(corpuslinguistics).freelarking)。AHI语料库:美国Heritage出版社为编纂Heritage词典而建立,有400万词。OTA牛津文本档案库(Oxfo
2、rdTextArchive):英国牛津大学计算中心建立,有10亿字节。BNC英国国家语料库(BritishNationalCorpus):1995年正式发布,使用TEI编码(TextEncodingInitiative)和SGML通用标准置标语言的国际标准(TheStandardGeneralizedMarkupLanguage,ISO8879,1986年公布)。ACL/DCI美国计算语言学学会数据采集计划:美国计算语言学学会(TheassociationforputationalLinguistics,ACL)倡议的数据采集计划(DataCollec
3、tionInitiative,DCI),其宗旨是向非赢利的学术团体提供语料,以免除费用和版权的困扰,用标准通用置标语言SGML统一置标,以便于数据交换。LDC语言数据联合会(LinguisticdataConsortium):设在美国宾州大学,实行会员制,有163个语料库(包括Text的以及speech的),共享语言资源。Ray–02.June.2000),第三次会议于2002年在西班牙的LasPalmasdeGranCanaria召开(27.May–02.June2002)。二、我国语料库的发展概况(一)早期的汉语语料库1、我国语料库研究的先河在我国
4、,从20世纪20年代开始,就有学者建立文本的语料库,采用统计的方法来研究汉字的频率,其目的在于制定基础汉字的字表。当然,这样的语料库不是机器可读的,规模也很小,它是现代语料库的雏形,开我国语料库研究的先河,在我国语料库的发展史上是功不可没功的。著名教育学家陈鹤琴为了教学的目的,在对语料统计的基础上,编写了《语体文应用字汇》,于1925年完成,于1928年由商务印书馆出版,陈书前有“绪论”,说明“中文应用字汇”曾有多种,其中包括P.克仑茨(PastorP.Kronz)的研究和他自己的编写的《常用四千字表》。陈鹤琴做过两次统计,第一次统计使用了六种材料,包
5、含554,478个汉字的语料,得不同汉字4261个;第二次使用包含34,818个汉字的语料,得出与4261个汉字相异的汉字458个。第二次统计所得的成果毁于战火,在《语体文应用字汇》中印出的只是第一次统计的结果。陈鹤琴用的语料分如下六类:儿童用书:127,293字;报刊(以通俗报刊为主):153,344字;妇女杂志:90,.freelbiguousSegmentationStrings,ASSs):交集型歧义字段和多义组合型歧义字段。交集型歧义切分字段:例如:“地面积”可能切为“地面”或“面积”,“面”成为交段,从而产生歧义。多义组合型歧义切分字段:例
6、如:“马上”本身是一个词,但也可以切为“马”+“上”两个单词,而“马上”与“马”+“上”的含义不同。梁南元(1987)对一个48092字的自然科学、社会科学样本进行了统计:交集型切分歧义518个,多义组合型切分歧义42个。据此推断,中文文本中切分歧义的出现频度约为1.2次/100字,交集型切分歧义与多义组合型切分歧义的出现比例约为12:1。③建立了初步的分词规范:1990年10月,在计算机界和语言学界的共同努力下,我国制定了国家标准GB-13715《信息处理用现代汉语分词规范》,这个国家标准提出了确定汉语单词切分的原则,是汉语书面语自动切词的重要依据。
7、(二)国家级语料库的建设1991年,国家语言文字工作委员会开始建立国家级的大型汉语语料库,以推进汉语的词法、句法、语义和语用的研究,同时也为中文信息处理的研究提供语言资源,计划其规模将达7000万汉字,当时宣称,这将成为世界上最大的汉语语料库。这个语料库是均衡语料库。其语料要经过精心的选材,语料的选材应受到如下限制:①时间的限制:语料描述具有历时特征,着重描述共时特征。选取从1919年到当代的语料(分为5个时期),以1977年以后的语料为主。②文化的限制:主要选取受过中等文化教育的普通人能理解的语料。③使用领域的限制:语料由人文与社会科学类、自然科学类
8、和综合类3大部分,人文和社会科学再分为8大类29小类,自然科学再分为6大类,综合类再分为2大类
此文档下载收益归作者所有