欢迎来到天天文库
浏览记录
ID:366030
大小:28.50 KB
页数:2页
时间:2017-07-28
《语料库的类型》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、语料库的类型[作者:李文中 转贴自:CorporaandtheELT 点击数:97 文章录入:neilruan]语料库来自拉丁词corpus,原意为“汇总”、“文集”等,复数形式为corpora或corpuses。语料库是“作品汇集,以及任何有关主题的文本总集”(OED)是“书面语或口头语材料总集,为语言学分析提供基础”(OED)。语料库是“按照明确的语言学标准选择并排序的语言运用材料汇集,旨在用作语言的样本”(Sinclair,1986:185-203)。语料库是按照明确的设计标准,为某一具体目
2、的而集成的大型文本库(AtkinsandClear,1992:1-16)。Renouf认为,语料库是“由大量收集的书面语或口头语构成,并通过计算机储存和处理,用于语言学研究的文本库”(Renouf,1987:1)。Leech指出,大量收集的可机读的电子文本是概率研究方法中获得“必需的频率数据”的基础,“为获得必需的频率数据,我们必须分析足量的自然英语(或其它语言)文本,以便基于观测频率(observedfrequency)进行合乎实际的预测。因此,就需要依靠可机读的电子文本集,即可机读的语料库”(Leech,198
3、7:2)。综上所述,语料库具有以下基本特征:1〕语料库的设计和建设是在系统的理论语言学原则指导下进行的,语料库的开发具有明确而具体的研究目标。如二十世纪六十年代初的BROWN语料库主要目的是对美国英语进行语法分析,而随后的LOB语料库基本按照BROWN语料库的设计原则收集了同年代的英国英语,目的是进行美国英语和英国英语的对比分析和语法分析。2〕语料库语料的构成和取样是按照明确的语言学原则并采取随机抽样方法收集语料的,而不是简单地堆积语料。所收集的语料必须是语言运用的自然语料(naturally-occurredda
4、ta)。3)语料库作为自然语言运用的样本,就必须具有代表性(representativeness)。Chomsky曾经批评语料库不过是试图用很小的样本代表巨量的甚至无限的实际语言材料,其结果必然存在偏差,缺乏代表性,“自然语料库存在如此严重的偏差,以至于对其所进行的描述将不过是一个词表而已”(Chomsky,1962:159)。这种批评对任何以概率统计为基础手段的研究都是有价值的(McEnery,1996:5)。但是,目前的计算机语料库可以通过控制抽样过程和语料比例关系来缩小偏差,增强语料的代表性。决定语料代表性的
5、主要因素不外乎样本抽样的过程和语料量的大小。语料库抽样一般采取随机抽样方法。一种做法是在抽样前首先确定抽样的范围,如BROWN语料库和LOB语料库分别是以1961年全年的美国英语和英国英语出版物作为抽样范围[i];再就是确定语料的分层结构,进行分层抽样,如把语料按文类(genre)和信道(channel,如书面语和口语等)进行分层,如图2.1所示。从各种语料的抽样比例上又可分为‘均衡抽样’(balanced)和‘塔式抽样’(pyramidal)。前者对各种语料按平均比例抽取,而后者对不同的语料进行不等比例抽取。4)
6、语料库语料以电子文本形式储存并且是通过计算机自动处理的。巨量语料以纯文本形式存储在磁盘上,以便语料库索引软件检索和处理。也可以通过转换软件把其它格式的文件如超文本(htm或html)格式转换为纯文本。另外,语料库具有一定的容量。语料库的大小取决于语料库的设计原则和研究需求,以及建库过程中语料资源的获取难度及其它因素。计算机语料库实际上提供了一种人机交互,这种交互方式随着语料库工具的发展而逐步加强其自动化特性。Leech认为这种人机交互有以下四种渐进的模式:(1)‘数据检索模式’。计算机以便利的形式提供数据,人进行分
7、析。(2)‘共生模式’。计算机提供部分经过分析的数据,人不断改善其分析系统。(3)‘自我组织模式’。计算机分析数据并不断改善其分析系统,人提供分析系统参数及软件。(4)‘发现程序模式’。计算机基于数据自动划分数据范畴并进行分析,人提供软件(Leech,1991:19)。计算机自动处理包括自动词性附码(tagging)、自动句法分析(parsing)等。其基本处理和分析过程包括以下几个步骤: 语音分析(phoneticanalysis)指音段分析,主要用于语音识别和语音合成。 正字分析(orthographi
8、canalysis)指对文本中各种非文字符号、标点、大小写问题等进行处理和歧义消除。 形态分析(morphologicalanalysis)即词性指定和附码。语料库自动附码软件通过概率统计和分析,对所给句子每一个词指定一个或多个词性码。结果显示分列显示和行显示两种。目前语料库自动词性附码准确率一般在97%以上。 句法分析(syntacticanaly
此文档下载收益归作者所有