语料库中语料的标注_崔刚

语料库中语料的标注_崔刚

ID:40069524

大小:181.31 KB

页数:6页

时间:2019-07-19

语料库中语料的标注_崔刚_第1页
语料库中语料的标注_崔刚_第2页
语料库中语料的标注_崔刚_第3页
语料库中语料的标注_崔刚_第4页
语料库中语料的标注_崔刚_第5页
资源描述:

《语料库中语料的标注_崔刚》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、DOI:10.13613/j.cnki.qhdz.000730清华大学学报(哲学社会科学版)2000年第1期JOURNALOFTSINGHUAUNIVERSITYNo.12000第15卷(PhilosophyandSocialSciences)Vol.15语料库中语料的标注崔刚,盛永梅(清华大学外语系,北京100084)摘要:语料标注是实现原始语料机读化的关键环节,也是语料库语言学领域的一个重要研究课题。本文结合国内外的有关研究成果以及国外的部分大型英语语料库的标注实践,介绍与讨论了语料标注的原则、模式以及类型,以供国内在建设英语语料库的过程中

2、借鉴。关键词:语料库;语料;标注中图分类号:H087文献标识码:B文章编号:1000-0062(2000)01-0089-06一、引言1.标注附码可以删除,可以恢复到原始语料。语料的搜集是一项费时耗力的工作,一旦原始语料搜集完成,应该得到充分的利用。而语料的标注总语料库从本义来讲可以指任意数量的语篇的集是带有一定的目的性,语料库用于不同的目的,可合,但是在当代语料库语言学中,语料库并非语篇能就需要采取不同的标注方法。如果标注附码可以的简单堆砌,它应该具备三个基本的要求删除,在想把语料用于其他用途时,可以重新进行(McEnery&Wilson,1

3、996),即样本的代表性、规标注。模的有限性和机读形式化。随着计算机技术的普及2.所作的标注可以单独抽出,另外储存。这与发展,机器可读已经成为当今语料库最基本的要一原则实际上与第一条原则基本一致,从这两个原求。要实现语料的机读化,提高语料的利用价值,则来看,语料库中语料的标注应该最大限度地增加关键在于语料的标注。所谓标注,就是对语料库中语料使用的灵活性。上述两个原则要求标注所使用的原始语料进行加工,把各种表示语言特征的附码的附码应该具有与语料本身明显不同的特征,使用标注在相应的语言成分上,以便于计算机的识读。者能够很容易地把它们区分开来。本文拟

4、结合国内外的有关研究成果,就语料库中语3.语料的最终使用者应该清楚标注的原则和料标注的原则、模式、类型等问题进行介绍与论附码的意义。由于标注过程都是利用附码进行的,述。而现在还没有一种标准统一的标注附码系统,因此,目前大多数语料库都配有详细介绍标注原则和二、语料标注的原则附码意义的手册,供使用者参考。4.在语料的使用和说明文件中,应该说明标英国著名语言学家Leech是当今语料库语言学注者以及标注所使用的方法。内容包括语料是采用的代表人物之一,他认为(1993)语料的标注应该人工的方式还是计算机自动标注的方式,是一个人遵循以下七个基本原则:收稿日

5、期:1999-9-5作者简介:崔刚(1966-),男,清华大学外语系副教授,博士;盛永梅(1976-),女,清华大学外语系研究生.90清华大学学报(哲学社会科学版)完成还是由多人共同完成。例如,有些语料是由计料库”等应用于语料的标注之中。COCOA系统由算机自动标注的,而计算机对于语言特征的识别能两个部分组成:第一部分是代表语言特征名称的附力有限,有些标注就不尽准确,尽管有时经过人工码,例如,附码A代表“作者”,第二部分是具有的加工,也不能完全地消除所有的标注错误,使用该特征的语言单位,例如,SHAKESPEAR,两个者了解这一点对于标注附码的

6、理解是非常有用的。部分放置在中括号内。那么,一个语篇的作者可以5.应向用户表明,语料的标注并非完美无缺,标注为。它只是一种可能有用的工具。不论是人工标注,还但是,COCOA只能用来标注有限的语篇信是计算机自动标注,还是两者的结合,都有可能产息,例如作者、日期、题目等等,并不代表当今语生标注的分歧,因为标注的过程实际上是对语料中料标注模式的主流。TEI(TextEncodingInitia-语言单位的特征进行解释的过程,不同的人可能会tive)被认为(McEnery&Wilson,1996)最能反有不同的解释结果。映当前

7、语料库语言学家致力于建立更具形式化的机6.标注应该尽量采用被人们普遍接受的中立读语篇信息编码国际标准的动向。“英国国家语料的模式。在标注的过程中,为了方便语料库的使库”(TheBritishNationalCorpus)等许多大型语料用,标注应该采用综合的使用范围广泛的语法理库都采用了TEI的标注模式。TEI标注模式是由论,而不是按照使用范围狭窄的某一特定的语法理计算语言学学会(ACL,AssociationforComputa-论。这当然是针对一般的语料库而言,如果语料被tionalLinguistics)、文学与语言学计算协会用来验证某一特

8、定的语法理论,那就另当别论了。(ALLC,AssociationforLiteraryandLinguistic7.任何标注模式都不能作为第一标准。即

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。