当代汉语文本语料库分词词性标注加工规范.doc

当代汉语文本语料库分词词性标注加工规范.doc

ID:25595646

大小:201.00 KB

页数:18页

时间:2018-11-21

当代汉语文本语料库分词词性标注加工规范.doc_第1页
当代汉语文本语料库分词词性标注加工规范.doc_第2页
当代汉语文本语料库分词词性标注加工规范.doc_第3页
当代汉语文本语料库分词词性标注加工规范.doc_第4页
当代汉语文本语料库分词词性标注加工规范.doc_第5页
资源描述:

《当代汉语文本语料库分词词性标注加工规范.doc》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、973当代汉语文本语料库分词、词性标注加工规范(草案)山西大学从1988年开始进行汉语语料库的深加工研究,首先是对原始语料进行切分和词性标注,1992年制定了《信息处理用现代汉语文本分词规范》。经过多年研究和修改,2000年又制定出《现代汉语语料库文本分词规范》和《现代汉语语料库文本词性体系》。这次承担973任务后制定出本规范。本规范主要吸收了语言学家的研究成果,并兼顾各家的词性分类体系,是一套从信息处理的实际要求出发的当代汉语文本加工规范。本加工规范适用于汉语信息处理领域,具有开放性和灵活性,以便适用于不同的中文信息处理系统。《97

2、3当代汉语文本语料库分词、词性标注加工规范》是根据以下资料提出的。1.《信息处理用现代汉语分词规范》,中国国家标准GB13715,1992年2.《信息处理用现代汉语词类标记规范》,中华人民共和国教育部、国家语言文字工作委员会2003年发布3.《现代汉语语料库文本分词规范》(Ver3.0),1998年北京语言文化大学语言信息处理研究所清华大学计算机科学与技术系4.《现代汉语语料库加工规范——词语切分与词性标注》,1999年北京大学计算语言学研究所5.《信息处理用现代汉语词类标记规范》,2002年,教育部语言文字应用研究所计算语言学研究室

3、6.《现代汉语语料库文本分词规范说明》,2000年山西大学计算机科学系山西大学计算机应用研究所7.《資讯处理用中文分词标准》,1996年,台湾计算语言学学会一、分词总则1.词语的切分规范尽可能同中国国家标准GB13715《信息处理用现代汉语分词规范》(以下简称为“分词规范”)保持一致。本规范规定了对现代汉语真实文本(语料库)进行分词的原则及规则。追求分词后语料的一致性(consistency)是本规范的目标之一。2.本规范中的“分词单位”主要是词,也包括了一部分结合紧密、使用稳定的词组以及在某些特殊情况下可能出现在切分序列中的孤立的语

4、素或非语素字。本文中仍用“词”来称谓“分词单位”。3.分词中充分考虑形式与意义的统一。形式上要看一个结构体的组成成分能否单用,结构体能否扩展,组成成分的结构关系,以及结构体的音节结构;意义上要看结构体的整体意义是否具有组合性。4.本规范规定的分词原则及规则,既要适应语言信息处理与语料库语言学研究的需要,又力求与传统的语言学研究成果保持一致;既要适合计算机自动处理,又要便于人工校对。5.分词时遵循从大到小的原则逐层顺序切分。一时难以判定是否切分的结构体,暂不切分。二、词性标注总则信息处理用现代汉语词性标注主要原则有三个:(1)语法功能原

5、则。语法功能是词类划分的主要依据。词的意义不作为划分词类的主要依据,但有时也起着某些参考作用。(2)允许有兼类。根据各种统计研究,现代汉语的某些词具有多种语法功能,但这多种功能的分布概率不同。在信息处理用现代汉语词类体系中,各词类的确立要根据词的主要语法功能。(3)词类加工规范的标记集中的大类应能覆盖现代汉语的全部词。为满足计算机处理真实文本词类标注的需要,本规范所定义的标记集,覆盖了比词小的单位,如前接成分(前缀)、后接成分(后缀)、语素字、非语素字等;比词更大的单位,如习用语、简称和略语,以及标点符号、非汉字符号等。三、词类标记集

6、本规范的词类标记集采用《信息处理用现代汉语词类标记规范》的大类,只增加了部分细类。本规范的词类标记集规定,每个分词单位的标记由英文字母串构成。标记的第一位代码,表示信息处理用现代汉语词类的基本词类,共20类,标记的第二、三位代码,表示信息处理用现代汉语基本词类下的细类。词类分别为:(1)名词n:普通名词(n)时间名词(nt)方位名词(nd)处所名词(nl)人名(nh)汉族或类汉族人名(人名nhh:姓nhf,名nhg)音译名或类音译名(nhy)日本人名(nhr)其他(nhw):如绰号,笔名,尊称等。地名(ns)族名(nn)团体机构名(n

7、i)其他专有名词(nz)(2)动词v:普通动词(v)能愿动词(vu)趋向动词(vd)系动词(vl)(3)形容词:性质形容词(aq)状态形容词(as)(4)区别词f(5)数词m(6)量词q(7)副词d(8)代词r(9)介词p(10)连词c(11)助词u(12)叹词e(13)拟声词o(14)习用语i名词性习用语(in)动词性习用语(iv)形容词性习用语(ia)连词性习用语(ic)(15)简称和略语j名词性简称和略语jn动词性简称和略语jv形容词性简称和略语ja(16)前接成分h(17)后接成分k(18)语素字g(19)非语素字x(20)其

8、它w:标点符号(wp)非汉字字符串(ws)其他未知的符号(wu)四、细则1.本规范参照GB/T13715-92的做法,以词类为纲对各类单位作具体切分与词性标注规定。2.本次加工规定,凡是收入词表中的词语,不再遵循本规范进

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。