欢迎来到天天文库
浏览记录
ID:36763549
大小:294.63 KB
页数:19页
时间:2019-05-14
《现代汉语语料库加工规范-词语切分与词性标注》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、现代汉语语料库加工规范——词语切分与词性标注1999年3月版北京大学计算语言学研究所1999年3月14日⒈前言北大计算语言学研究所从1992年开始进行汉语语料库的多级加工研究。第一步是对原始语料进行切分和词性标注。1994年制订了《现代汉语文本切分与词性标注规范V1.0》。几年来已完成了约60万字语料的切分与标注,并在短语自动识别、树库构建等方向上进行了探索。在积累了长期的实践经验之后,最近又进行了《人民日报》语料加工的实验。为了保证大规模语料加工这一项重要的语言工程的顺利进行,北大计算语言学研究所于1998年10月制订了《现代汉语文本切分与词性标注规范V2.0》
2、(征求意见稿)。因这次加工的任务超出词语切分与词性标注的范围,故将新版的规范改名为《现代汉语语料库加工规范》。制订《现代汉语语料库加工规范》的基本思路如下:⑴⑴词语的切分规范尽可能同中国国家标准GB13715“信息处理用现代汉语分词规范”(以下简称为“分词规范”)保持一致。由于现在词语切分与词性标注是结合起来进行的,而且又有了一部《现代汉语语法信息词典》(以下有时简称“语法信息词典”或“语法词典”)可作为词语切分与词性标注的基本参照,这就有必要对“分词规范”作必要的调整和补充。⑵⑵小标记集。词性标注除了使用《现代汉语语法信息词典》中的26个词类标记(名词n、时间词
3、t、处所词s、方位词f、数词m、量词q、区别词b、代词r、动词v、形容词a、状态词z、副词d、介词p、连词c、助词u、语气词y、叹词e、拟声词o、成语i、习用语l、简称j、前接成分h、后接成分k、语素g、非语素字x、标点符号w)外,增加了以下3类标记:①专有名词的分类标记,即人名nr,地名ns,团体机关单位名称nt,其他专有名词nz;②语素的子类标记,即名语素Ng,动语素Vg,形容语素Ag,时语素Tg,副语素Dg等;③动词和形容词的子类标记,即名动词vn(具有名词特性的动词),名形词an(具有名词特性的形容词),副动词vd(具有副词特性的动词),副形词ad(具有副
4、词特性的形容词)。合计约40个左右。⑶⑶规范的多元性。既要适应语言信息处理与语料库语言学研究的需要,又要能为传统的语言研究提供充足的素材;既要适合计算机自动处理,又要便于人工校对。⑷⑷词组(短语)本位汉语语法体系的指导作用。汉语的词类与句法成分之间不存在简单的一一对应关系。同一个句法成分可以由不同词性的词来充任;而具有确定词性的同一个词又可以充当不同的句法成分,形式上可以没有任何不同的标记。《现代汉语语法信息词典》是在词组本位语法体系的语法思想指导下研制的,其最基本的成果是对数以万计的词语根据其在实际语料中的语法功能分布,特别是优势功能分布决定了它们的词性(即它们
5、所属的词类)。在进行词性标注时,应当充分利用《现代汉语语法信息词典》,承接这个基本成果,避免仅根据词在所在的句子中充当的句子成分来决定其词性。同时考虑到语言学界对汉语词类的划分存在不同意见,在标记集中增加了名动词vn,名形词an,副动词vd,副形词ad。当然,增加这些标记并非只是缓冲不同意见,主要是为了给词的兼类研究提供计量根据,也为汉语词的概率语法属性描述作准备。⑸为了对新闻语料中大量存在的专有名词(地名、团体机构名称等)进行研究(从命名规律到自动识别),在切分与标注的基础上对由若干个词组合而成的短语型专有名词加上方括号和类型标记(主要是nt,nz,还有少量的n
6、s)。⑹不是孤立使用本规范。在使用本规范对语料库进行加工时,将与《现代汉语语法信息词典》等项研究成果密切配合。当现在的研究和将来的应用(中文信息检索、中文信息提取、汉外机器翻译等)相衔接时,就可以方便地利用词典中丰富的词语语法属性信息。而经过切分和词性标注的语料库又可以验证和丰富词典中词语的属性,进而建立词的概率语法属性描述。经过切分和词性标注的语料库同《现代汉语语法信息词典》结合,形成一个立体的语言知识库。语料库的进一步深加工(树库,注音,义项标注等)也有了可靠的基础。⑺人机互助的工作方式。以本规范为基准,继续扩充自动加工软件的功能并提高其精度。人工校对是必要的
7、。需要重视校对人员之间的切磋,要将对学术问题的不同见解统一到规范的制订与执行上。开发机器辅助编辑和语料库管理软件,保证语料库加工的一致性。本规范分为三个部分:①切分规范切分规范主要规定现代汉语的切词原则,即什么样的汉字组合可以为一个切分单位。第2章中详细介绍对“分词规范”的补充与调整。②切分和标注相结合的规范在汉语中,像“双音节动词+单音节名词”通常构成新的名词,对于这个新的名词,即使在词典中没有登录,也应该把它们处理为一个切分单位。因此,在本规范中,给出了一些基于词性描述的构词规律,规定了什么样的组合可以处理为一个切分单位,并给出了新组合的词的词性标记。这部分内
8、容主要集中
此文档下载收益归作者所有