gbt13715-1992 信息处理用现代汉语分词规范

gbt13715-1992 信息处理用现代汉语分词规范

ID:376457

大小:305.71 KB

页数:10页

时间:2017-07-29

gbt13715-1992 信息处理用现代汉语分词规范_第1页
gbt13715-1992 信息处理用现代汉语分词规范_第2页
gbt13715-1992 信息处理用现代汉语分词规范_第3页
gbt13715-1992 信息处理用现代汉语分词规范_第4页
gbt13715-1992 信息处理用现代汉语分词规范_第5页
资源描述:

《gbt13715-1992 信息处理用现代汉语分词规范》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、中华人民共和国国家标准信息处理用现代汉语分词规范GB/T13715一92ContemporaryChineselanguagewordsegmentationspecificationforinformationprocessing1主题内容与适用范围1.1主题内容本规范规定了现代汉语的分词原则,以满足信息处理的需要。它对汉语信息处理的规范化,对各种汉语信息处理系统之间的兼容性有重要的作用。1.2适用范围本规范适用于汉语信息处理各领域,其他行业和有关学科可以参考使用.汉语信息处理各领域可以根据其专门需求,进一步补充和细化本规范

2、的规定。2引用标准GB12200汉语信息处理词汇3术语以下术语引自GB1220011汉M信息处理用计算机对汉语的音、形、义等信息进行的处理。3.2词最小的能独立运用的语言单位。3.3词组由两个或两个以上的词,按一定的语法规则组成,表达一定意义的语言单位。3.4分词单位汉语信息处理使用的、具有确定的语义或语法功能的基本单位。它包括本规范的规则限定的词和词组。I5汉语分词从信息处理需要出发,按照特定的规范,对汉语按分词单位进行划分的过程4概述本规范以信息处理应用为目的,根据现代汉语的特点及规律,规定现代汉语的分词原则。本规范用下划

3、线“__”作为分词单位标记。4.1空格或标点符号是计算机中分词单位的分隔标记。作为分隔标记的标点符号有:句号逗号、顿号分号、胃号、}、巧号、叹号、引号、括号、破折号、省略号、书名号、问隔号、连接号及符号,’/”等。4.2字或三字词,以及结合紧密、使用稳定的二定或三字词组,一律为分词单位。例如国家技术监督局1992-10一04批准1993一06一01azia1469.www.bzxzk.com.Gs/T13715一92发展可爱对不起自行车4.3四字成语一律为分词单位。例如:胸有成竹欣欣向荣四字词或结合紧密、使用稳定的四字词组,一

4、律为分词单位。例如:社会主义春夏秋冬由此可见4.4五字或五字以上的谚语、格言等,分开后如不违背原有组合的意义,应予切分。例如:就是生命成功之母人心,泰山移结合紧密、使用稳定的词组,分开后如违背原有组合的意义,或影响进一步的处理,则不予切分。例如.不管三七二十一4.-卜口惯用语和有转义的词或词组,在转义的语言环境下,一律为分词单位。例如:妇女能顶半边天他真小气,象个铁公鸡4.6略语一律为分词单位。例如:科技奥运会工农业浦了﹃百:分词单位加形成儿化音的“儿”,一律为分词单位。例如:花儿悄悄儿玩儿通O马U在现化汉语中出现的非汉字符号

5、,例如其他语言的宇符串、数学符号、化学符号、阿拉伯数字等,仍保留原有形式。例如:CADCO:=cm124712985763.1449现代汉语中其他语言的汉字音译外来词,不予切分。例如:巧克力吉普4.10不同的语言环境中的同形异构现象,按照具体语言环境的语义,根据本规范的规定进行切分。例如:把手抬起来这个把手是木制的5具体说明为叙述方便,本规范沿用了把词分为名词、动词、形容词、代词、数词、量词、副词、介词、连词、助词、语气词、叹词、象声词等十三类的方法。5.1名词5.1.,普通名词5.1.1.1二字的名词或结合紧密的二字名词词组

6、,一律为分词单位。例如:火车牛肉钢铁5.1.1.2结合紧密,分开后如违背原有组合的意义的名词性词组,一律为分词单位。例如:有功功率被子植物5.1.1.3由形容词加名词组成的词组,应予切分。例如:绿叶小床形容词加名词组成的有转义的词组,一律为分词单位。例如:小媳妇戴高帽儿1470.www.bzxzk.com.Ga/T13715一925.1.1.4前加成分加名词性分词单位应为分词单位。例如:阿哥老鹰非金属超声波5.1.1.5名词性分词单位加如下类型的后加成分;家手性员子化长头者应为分词单位。例如:科学家拖拉机手革命性理发员椅子标准

7、化科长木头学者名词性分词单位后如有多个后加成分,则它们是一个分词单位。例如:物理学家5.1.1.6名词性分词单位前后如有前加成分和后加成分,则它们是一个分词单位。例如:非党员超导性5.1.1.7各类专业的基本术语为分词单位。例如:加速度中央处理器5.1.1.8方位词应予单独切分。例如:桌子I-长江以北5.1-1.9除“人们”之外,仅表示前一个名词性分词单位复数的“们”单独切分。例如:朋友们学生们但是“哥儿们爷们儿”等是分词单位。5.1.1.10时间名词或词组的分词规则如下:一年的十二个月份以及梅周的七天,一律为分词单位。例如:

8、l:月元月3月星期日礼拜三b.“年、日、时、分,秒”分别为分词单位。例如:1988年月15日11时42分秒c“前、后、下、大前、大后”等直接与时间名词或量词组合时,它们为一个分词单位。例如:8r孟后年上星期下月大前天大后年d.“初”加十以内的数字一律为分词单位。例如:初一初八

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。