语料库语言学答客问

语料库语言学答客问

ID:37738534

大小:1.48 MB

页数:16页

时间:2019-05-30

语料库语言学答客问_第1页
语料库语言学答客问_第2页
语料库语言学答客问_第3页
语料库语言学答客问_第4页
语料库语言学答客问_第5页
资源描述:

《语料库语言学答客问》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、语料库语言学 2014年 第1卷 第1期语料库语言学答客问广东外语外贸大学桂诗春编者按本期“学者聚焦”关注的是桂诗春教授。桂教授是我国外语界语料库语言学研究的先行者之一。他同杨惠中教授主持创建的“中国英语学习者语料库”,极大地促进了我国英语中介语的实证研究。桂先生年过耄耋,仍然紧跟语料库研究最新技术和方法。他79岁高龄时出版了基于自建学术英语语料库的多维度英语语体研究专著。近期,他还自学R语言,以用于英汉语语料的统计分析。为能让更多年轻后学从桂先生身上汲取学术养分。本刊特于创刊号登载对桂先生的专访,以飨读者。1.您最早是什么时候开始接触语料库

2、的?您能描述一下当时国内语料库研究开展的情况吗?世界上第一个机读英语语料库(布朗语料库,BrownCorpus)建于20世纪60年代中叶。当时我国正值“文革”,与国外隔绝,直到“文革”结束后,我才开始接触语料库语言学。首先看到的是Kučera和Francis的ComputationalAnalysisofPresent-DayAmericanEnglish,那是100万词次的布朗语料库的文字描述版,不久又看到JohnCarroll等人基于500万词次的WordFrequencyBook,虽然两者都不是直接可用的电子化语料库。但最早引起我兴趣的

3、是心理语言学家JohnCarroll为这两本语料库所写的《序言》,然后又看到GustavHerdan所写的两本书:Type-TokenMathematics(1960)和QuantitativeLinguistics(1964)。当时还没有语料库语言学的提法,但这两本书和Carroll的《序言》,却给我打下了语料库的理论和数学基础,开始认识到通过语料库调查进行语言研究的重要意义。上海交通大学杨惠中、黄人杰等人的团队,也差不多在这一阶段认识到语料库的前景,并开始在我国建立自己的语料库;他们收集并创建了JDEST(JiaoDaEnglishfor

4、ScienceandTechnology)语料库,并基于该语料库来编制科技英语常用词表。其间我也访问过他们,并在现场看过他们的成果。但是布朗语料库也好,JDEST语料库也好,当时都是依托大型计算机来完成的。而我所在的单位并没有计算机,于是就向上级申请购买一台AppleII型的微型计算机。教育部门领导最初的反应是:你们又不是工科院系,要什么计算机?经过我们努力说明和争取,最后购进了3台,分给几个部属外语学院(北外、上外和广外)。当时的计算机技术远没有现在发达,中央处理器和内存都较低级,外部储存手段只有5英寸软盘,光学扫描仪还没有问世。1985年

5、,我招了一个硕士生祝启波,他原在石油大学广州分院教英语,也上过计算机课,于是我们就开始在一个IBMPC/XT计算机平台上,开发石油英语语料库GPEC(GuangzhouPetroleumEnglishCorpus)。祝走访了我国石油系统的几个院系,根据石油探测、石油提炼和石油探钻三大类进行采样和人工输入文本,而1语料库语言学-正文.indd12014-7-2515:56:16语料库语言学答客问且在一台微机上,进行文件的组合、整理和运算,终于建立了一个40万词次的石油英语语料库。这个语料库最后以《石油英语频率词典》(1991)的名义发表,使用的

6、是Carroll的WordFrequencyBook的几个统计量(U、SFI、D和F)。我在为该书所写的《序言》里不得不说:Thebuild-upofcorporarequiresaBrobdingnagianeffort,(Brobdingnag是《格里佛游记》里的“大人国”),这个研究的成果不但是一个石油英语语料库,而且还建立了一个在多数人都能拥有的廉价计算机上建立专门用途语料库的模型。Leech(1997:18)在回顾“专门用途语料库”时说过,“这些语料库通过不同手段在逐步增加,首先是敏锐的专门用途语言学家和教师开发自己的语料库,早期的

7、例子是JDEST和GPEC,两者都来自中国。”Leech所不知道的是GPEC是在技术条件那么差的情况下完成的。至于和语料库有关的软件,最早接触到的是加拿大多伦多大学IanLancashire等人开发的TACT21,那是在DOS30基础上开发的,具有很多英语文本(主要为文学文本),当年可从该大学网站下载使用。TACT已经具有语料库的各种功能(检索、词频表等),不过它的界面并不十分友好。另一个是WordCruncher,主要是一个检索工具,其好处是可以检索汉语,但不能对汉语进行分词。MikeScott的WordSmithTools的各个版本都

8、在Windows的环境下运行,把各种功能都组合在一起,且提供不少统计数据,应是一个突破。还应提出的是ICAME在1999年发行了一张光盘,叫做ICAMECollec

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。