欢迎来到天天文库
浏览记录
ID:44205937
大小:122.40 KB
页数:56页
时间:2019-10-19
《现代汉语语料库加工-词语切分与词性标注规范与手册》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、现代汉语语料库加工——词语切分与词性标注规范与手册俞士汶主编北京大学计算语言学研究所1999年4月目录●现代汉语语料库加工规范——词语切分与词性标注⒈前言…………………………………………………………1⒉切分规范……………………………………………………3⒊切分和标注相结合的规范…………………………………10⒋标注规范……………………………………………………14⒌后记…………………………………………………………19●现代汉语语料库加工手册——词语切分与词性标注⒈语料库加工的标记集及其说明……………………………20⒉加工好的样例……………………………………………
2、…20⒊若干个常用多类词的处理…………………………………24⒋词语切分和词性标注中的典型错例及分析………………28⒌准谓宾动词示例……………………………………………41⒍机器自动加工的样例及后校正注意事项…………………42⒎后记…………………………………………………………46●附录:⒈按代码的字母顺序排列的标记集…………………………47⒉按名称的汉语拼音顺序排列的标记集……………………48⒊参考文献……………………………………………………49现代汉语语料库加工规范——词语切分与词性标注1999年3月版北京大学计算语言学研究所1999年3月14日⒈前言北大计
3、算语言学研究所从1992年开始进行汉语语料库的多级加工研究。第一步是对原始语料进行切分和词性标注。1994年制订了《现代汉语文本切分与词性标注规范V1.0》。几年来已完成了约60万字语料的切分与标注,并在短语自动识别、树库构建等方向上进行了探索。在积累了长期的实践经验之后,最近又进行了《人民日报》语料加工的实验。为了保证大规模语料加工这一项重要的语言工程的顺利进行,北大计算语言学研究所于1998年10月制订了《现代汉语文本切分与词性标注规范V2.0》(征求意见稿)。因这次加工的任务超出词语切分与词性标注的范围,故将新版的规范改名为《现代汉语语料库加工规范》
4、。制订《现代汉语语料库加工规范》的基本思路如下:⑴词语的切分规范尽可能同中国国家标准GB13715“信息处理用现代汉语分词规范”(以下简称为“分词规范”)保持一致。由于现在词语切分与词性标注是结合起来进行的,而且又有了一部《现代汉语语法信息词典》(以下有时简称“语法信息词典”或“语法词典”)可作为词语切分与词性标注的基本参照,这就有必要对“分词规范”作必要的调整和补充。⑵小标记集。词性标注除了使用《现代汉语语法信息词典》中的26个词类标记(名词n、时间词t、处所词s、方位词f、数词m、量词q、区别词b、代词r、动词v、形容词a、状态词z、副词d、介词p、连
5、词c、助词u、语气词y、叹词e、拟声词o、成语i、习用语l、简称j、前接成分h、后接成分k、语素g、非语素字x、标点符号w)外,增加了以下3类标记:①专有名词的分类标记,即人名nr,地名ns,团体机关单位名称nt,其他专有名词nz;②语素的子类标记,即名语素Ng,动语素Vg,形容语素Ag,时语素Tg,副语素Dg等;③动词和形容词的子类标记,即名动词vn(具有名词特性的动词),名形词an(具有名词特性的形容词),副动词vd(具有副词特性的动词),副形词ad(具有副词特性的形容词)。合计约40个左右。⑶规范的多元性。既要适应语言信息处理与语料库语言学研究的需要
6、,又要能为传统的语言研究提供充足的素材;既要适合计算机自动处理,又要便于人工校对。⑷词组(短语)本位汉语语法体系的指导作用。汉语的词类与句法成分之间不存在简单的一一对应关系。同一个句法成分可以由不同词性的词来充任;而具有确定词性的同一个词又可以充当不同的句法成分,形式上可以没有任何不同的标记。《现代汉语语法信息词典》是在词组本位语法体系的语法思想指导下研制的,其最基本的成果是对数以万计的词语根据其在实际语料中的语法功能分布,特别是优势功能分布决定了它们的词性(即它们所属的词类)。在进行词性标注时,应当充分利用《现代汉语语法信息词典》,承接这个基本成果,避免
7、仅根据词在所在的句子中充当的句子成分来决定其词性。同时考虑到语言学界对汉语词类的划分存在不同意见,在标记集中增加了名动词vn,名形词an,副动词vd,副形词ad。当然,增加这些标记并非只是缓冲不同意见,主要是为了给词的兼类研究提供计量根据,也为汉语词的概率语法属性描述作准备。⑸为了对新闻语料中大量存在的专有名词(地名、团体机构名称等)进行研究(从命名规律到自动识别),在切分与标注的基础上对由若干个词组合而成的短语型专有名词加上方括号和类型标记(主要是nt,nz,还有少量的ns)。⑹不是孤立使用本规范。在使用本规范对语料库进行加工时,将与《现代汉语语法信息词
8、典》等项研究成果密切配合。当现在的研究和将来的应用(中文信息检索、
此文档下载收益归作者所有