欢迎来到天天文库
浏览记录
ID:46819804
大小:77.50 KB
页数:5页
时间:2019-11-28
《语篇分析的语料库研究综述》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、语篇分析的语料库研究综述语料库的发展始于20世纪50年代,结构主义语言学家受到乔姆斯基的影响,率先组建语料库,但由于技术的限制,并没有形成电子语料库,直到20世纪60年代,美国布Brown)大学NelsonFrancis和HenryKucera运用现代计算机手段,根据系统性原则进行采样,组建第一代大型电子语料库,自此语料库作为一种实证性的科学手段进入语言研究领域。一、语料库与语料库语言学语料库(cropus)的字面含义就是语言材料的存储数据库。现代科技使得计算机的存储容量和处理技术都显著提高,大量的原始语料可存放在计算机内,研究者运用计算机软件按照一定
2、的语言学原则对语料进行加工标注,将语言文本或话语片段进行处理比对、统计分析,依据客观详实的材料对语言进行深入研究。语料库的特点主要体现在:一、语言环境的真实性和语料的真实性;二、电子计算机为载体;三、语料经过分析、加工和处理。语料库语言学(coi-puslinguistics)是在语料库的基础上进行的语言研究。语言学者们对语料库语言学的学科性质一直存有异议,一些学者认为经过50年的发展,语料库已经在语言学中占有一席之地,成为语言学的一个分支,足以和社会语言学、心理语言学、语用学等相提并论。然而还有学者表示语料库是研究语言某个方面特点的手段,也就是说语料
3、库语言学不是语言学的分支学科,只有凭借语料库所体现出来的语言特点对现有语言学理论进行批判,提出新的观点或理论才可能称语料库语言学为一个新的学科。二、语料库的研究进展(%1)语料库的国外研究进展继Brown语料库之后,20世纪70年代英国兰卡斯特(Lancaster)大学和挪威奥斯陆(Oslo)大学以及卑尔根(Bergen)大学共同研发LOB语料库,运用TAGIT系统,以统计方式建立换算儿率矩阵,以更高准确率的标注方法记录当代英国英语。LLC语料库是第一个英语口语语料库,是由伦敦(London)大学与瑞典隆徳(Lund)大学合作研发的,由伦敦大学负责收集
4、整理2000小时谈话和广播等口语资料,交由隆德大学进行计算机录入,容量包含50万词次,将索引系统引入语料库。1980年代,JohnSinclair主持,英国伯明翰(Birmingham)大学与柯林斯(Collins)III版社合作编纂CollinsCobuild词典的语料库,此时语料库的规模已经达到2000万词次,形成动态语料库,所用例句均来自于真实语料。Longman词典编纂也采用语料库的方式,LLELC(Longman英语语料库)、LSC(Longman口语语料库)和LCLE(Longman英语学习语料库)陆续在80年代建成,为其他国家英语学习者提
5、供了词典容量为5000万词次学习词典。20世纪90年代,语料库的规模已经步入超大规模阶段,词级以亿计数,并采用标准编码深度标注,比如:美国计算语言学会(TheAssociationforComputationalLinguistics,简称ACL)侣议发起数据采集计划(DataCollectionInitiative,简称DCI),采用统一的SGML标注语言。英语国家语料库(BritishNationalCorpus,简称BNC)广泛收集各方面素材组建1亿词级的样本,于1994年组建完成,2007年更新至最新版本,该语料库素材既包括书面语语料也包括口语
6、语料,是冃前最大的网络对直接使用的语料库。(%1)语料库的国内研究进展我国的语料库发展始于20世纪20年代,当吋的学者采用文本,利用统计方法建立语料库,研究汉字出现的频次,此时的语料库并没有计算机的参与,是我国语料库研究的雏形。70年代末机器可读语料库产生,1979年市武汉大学建立了汉语现代文学作品语料库,容量包含527万字。8()年代屮国第一个英语语料库诞生,上海交通大学杨惠屮教授和黄人杰教授组建JDEST科技英语计算机语料库。进入90年代,语料库在中国逐渐发展,1999年戴炜栋和张爱玲在《外国语》上的论文《语料库、计算机、语言学》,为中国学习者介绍
7、语料库。2003年上海外语教育出版社出版的桂诗春、杨惠中所著的《中国学习者英语语料库》(ChineseLearnerEnglishCorpus,简称CLEC),对屮国学习者进行英语失误分析,为学者们运用语料库为手段研究语言学提供了便利。除了文本语料,我国语料库也逐步延伸至口语语料,大学学习者英语口语语料库(CollegeLearnersofSpokenEnglishCorpus,简称COLSEC)为我国大学生英语口语学习和训练提供帮助。语料库的研究也呈现国际化,宾州(Pennsylvania)大学树库(UpennTreeBank)在1993年完成了英语
8、语句语法结构标注,并于2000年完成了屮文树库。目前语料库研究呈高速发展趋势,单语语料库已经取
此文档下载收益归作者所有