语料库的设计和开发

语料库的设计和开发

ID:44157995

大小:316.00 KB

页数:82页

时间:2019-10-19

语料库的设计和开发_第1页
语料库的设计和开发_第2页
语料库的设计和开发_第3页
语料库的设计和开发_第4页
语料库的设计和开发_第5页
资源描述:

《语料库的设计和开发》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第二讲 语料库的设计和开发 统计的一些基本概念7/16/20211语料库的设计与开发语料库设计与编纂建设一个语料库语料库的类型国外语料库介绍汉语语料库介绍7/16/20212从事语料库语言学研究的人员首先面临的任务是建立语料库。他们必须对语料库应该包含哪些语料以及如何组织这些语料等问题作出决定,并且能够控制以后在使用语料库的过程中将要发生的事情。语言学家则要能够处理语料中的任何语言实例。7/16/20213语料库设计与编纂中的问题出发点是:如何使得在其基础上开展的语言调查是合理的和可靠的。Kennedy(1998)指出了语料库设计师所面临的最基本问题:这个语料库

2、所采集的语言数据是否真正代表了某种期望的语言或语体。语料库的建设与编纂过程中应考虑的问题包括:1)语料库是语言的静态样本还是动态样本?2)多大程度上可以成为语言或语体的代表?3)为了满足某种研究目的,语料库规模应该多大?4)应该包含多少个样本,每个样本应该多大?7/16/20214静态与动态(1)一个语料库可以是以某种方式采集的文本的静态集合,其目的是成为整个语言或在某一特定时期语言的一个代表。例如,SEU语料库试图以静态方式在不同使用领域的口语和书面语材料中选择英国英语的样本,使语料库可以作为英语共时的代表。设计这样的语料库,需小心处理如下问题:特定的体裁、特定的

3、样本规模等1985年夸克(Quirk)出版的英语语法大全是以SEU为基础编撰的。他认为SEU语料库是英国英语的一种快照,语料库象一幅风景照,目的是抓住风景的主要特征。只收集主要的体裁,并非所有语言现象。设计者采用固定数目的样本和文本类型加以构造,样本语料库可以方便地同其他构造相似的语料库进行对比。7/16/20215静态与动态(2)动态的(监督的monitor)语料库象一部动画,而不是一幅快照。因为它提供了一种方法来观察语言用法模式随时间变异的情况。大量收集某一时期内的文本,然后通过软件在这些文本中找出与描写目的有关的统计信息,进而对观察的语言现象作出总结。例如,新

4、的结构或词型的出现,或者老词型的用法或搭配发生了改变等。动态文本集,将随着新文本的加入而不断增容和变化。因此不适宜在不同语料库之间进行对比研究。数据的收集通常是随遇的,不一定“平衡”,对文本数量的关注取代了采样计划的精心设计。其中包括文本的收集、存储和处理等。7/16/20216代表性与平衡(1)选择什么样的文本进行语料库才能达到合理性和可靠性的要求?目前还没有公认答案!里奇(1991)曾指出,一个语料库具有代表性,是指在该语料库上获得的分析结果可以概括成为这种语言整体或其指定部分的特性。早期Brown和LOB语料库分别视为美国英语和英国英语在特定时期的代表语料库究

5、竟是“什么的代表”?尽管一个样本不足以代表一种特定的体裁或主题,而有大量各类样本组成的一个语料库可以成为一种语言的代表。7/16/20217代表性与平衡(2)在一个语料库中,如何达到不同部分之间的平衡?书面语和口语的平衡体裁的比例平衡语料库中,平衡不能简单解释为文本的不同来源,比如说让口语与书面语的文本总数相等辛克莱(1991)建议对一个一般的书面语语料库,在选择文本方面的最低准则至少应区别小说和非小说;书本、期刊或报纸等等7/16/20218代表性与平衡(3)萨默斯(1991)总结了一些选择书面语的方法,实际采用这些方法的某种组合,用流通度和影响力等来指导基于学术

6、价值或“影响力”随机采样作品流通度或文本被阅读的广泛程度人们阅读习惯的统计采样依据语言说明进行文本选择的经验等指定年度或期限来选择文本汉语语料库的建设者大部分采用的是按题材和体裁来进行7/16/20219规模(1)规模和代表性代表了语料库的合法性和可靠性,但需要强调指出,语料库不管多大,同语言的总体相比仍是微不足道的。辛克莱(1991)建议,1000-2000万词次可以构造一个有用的、小型语料库,但若要对语言总体做出可靠的描述,这样的规模仍嫌太小。即使构造出十亿词次的语料库,对于一个大型词表中的大多数词型来说,仍然会显示出相当严重的稀疏信息。语料并非越多越好7/16

7、/202110规模(2)齐夫(Zipf’s)律,若按照词频f由高到低的排列顺序给语料库中每个词指派一个由小到大的整数秩(rank),则f与r近似成反比,即f*r=k极少数高频次的出现次数已经覆盖了语料库总词次数的绝大部分,而词(型)总数中大约一半的词在这个语料库中却只出现一次。齐夫律不仅适用于一种语言的词汇分布,也反映了句法规则的分布状态。极少数常用句法规则覆盖了语料库中绝大多数的句法结构现象,而很多规则只出现一次。并且,语料库规模的扩大,句法规则的数目也不断增长,与乔姆斯基的著名假设—句法规则数目的有限性和句子数目的无限性,提出了挑战。7/16/202111规

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。