资源描述:
《现代汉语语法信息词典的收词原则》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、《现代汉语语法信息词典》的收词原则 王惠chswh@nus.edu.sg 关键词:现代汉语、语法词典、收词原则 一.前言 《现代汉语语法信息词典》是一部供计算机分析与生成汉语句子而使用的机器词典。词典计划收词6万左右,所收条目包括:名词n,时间词t,处所词s,方位词f,数词m,量词q,区别词b,代词r,动词v,形容词a,状态词z,副词d,介词p,连词c,助词u,语气词y,象声词o,叹词e,前接成分h,后接成分k,成语i,简称略语j,习用语l,语素g,非语素字x,标点符号w等26类。其中前18类是语言学界普遍认可的词,后8类只是借助这些术语对词典中所收的非词成分进行归类[1]。为
2、行文方便,本报告中将对词典中收录的这26类成分都统称为“词语”。北京大学计算语言学研究所从1986年起就开始研制《现代汉语语法信息词典》。该项研究先后纳入国家“七五”攻关项目和“八五”科技攻关项目《中文信息处理技术应用开发平台》[3]的总规划,并与国家自然科学基金项目“自然语言的计算理论”相配合。经过七年的连续开发,目前,该研究已取得重要的阶段性成果,词典已初步完成了五万词的收录、归类及属性描述。本报告就是在这些实际工作经验的基础上,详细介绍这部电子词典的收词原则。 二.收词原则 词典的收词原则依赖于其应用目标。《现代汉语语法信息词典》(以下简称“电子词典”)是供计算机使用的,
3、与供人使用的词典相比较,收词原则应有所区别;本词典又是一部面向中文信息处理各个领域的通用性词典,它不依赖于任何特定的语言处理模型及算法,因而,与一般依赖于某个具体处理系统的电子词典相比较,收词原则也有很大的区别。下面从6个方面对这部电子词典的收词原则进行介绍:1.规范原则(1).符合国家标准《信息处理用现代汉语分词规范》的词语,都属于电子词典的收词范围。根据该《信息处理用现代汉语分词规范》中对“分词单位”的定义:“汉语信息处理使用的、具有确定的语义或语法功能的基本单位。它包括本规范的规则限定的词和词组”。语言学中所定义的词:“最小的能自由运用的语言单位,首先是电子词典的收录对象
4、。在目前已收录的五万余条词语中,词占95%以上,包括了全部的18个基本类。对于其中的9个封闭类:方位词、量词、代词、副词、介词、连词、助词、语气词、叹词等,电子词典尽可能全部收录。而另外9个开放类,名词、时间词、处所词、动词、形容词、状态词、区别词、数词、象声词等,由于其数目众多,电子词典不可能都收录,而是还要进一步参照下面将要介绍的其它几个收词原则(如高频原则、稳定原则、词部件原则等)进行取舍。除了18类基本词以外,符合《信息处理用现代汉语分词规范》的成语、习用语、缩略语3类比词大的语言成分也属于电子词典的收录范围。这些固定短语大多数是由语素和词组合而成,其构成成分和格式都是
5、在汉语的长期发展中形成的,不可随意切割,而且其意义也带有整体性。在句子中所起的作用与词相当,是汉语词汇体系的重要成员。如: 成语:胸有成竹、走马观花、子虚乌有固定短语习用语:跑龙套、卖关子、总而言之简称略语:三好、人大 由于这3类固定短语数量也非常可观,电子词典对其处理策略与处理开放类的策略相同,只选收其中一部分使用频率高、稳定性强的。(2).不符合分词规范的词语,原则上将不予收录。这主要包括以下几种情况:1).不是分词单位的词实际文本中的数词千变万化,如:“一、十一、一亿八千万、第六、五分之二、一千多、三十几、数万……”等等。但根据分词规范,可以作分词单位的只有:a.系数词“
6、一、十、两、几”等b.位数词“十、百、千、万、亿、兆”等c.助数词“第、初、零、分之、多、数、约”等d.数量词“若干、许多、不少、大量、少许”等那么,除了这4组,其它数词都不是分词单位,因而也不属于电子词典的收录范围之内。2).不是分词单位的短语成分,如:a.(一)般说(出其)不意热胀(冷缩)超低(空)(三)年来之首最关并以应按b.在讲话中写论文学不好科技发展时间就是生命听说读写早来桌子上c.联合国教科文组织国家标准局北京大学中国少年先锋队其中a组可能在词频统计时这些字的组合出现频度较高,但它们不在合理的层次上,既不成词也不成短语,b组是自由短语,c组是组织、机构、单位的名称。
7、2.高频原则现代汉语词语非常丰富,即使是严格符合《信息处理用现代汉语分词规范》的分词单位,也数不胜数。因而,电子词典不可能见词就收。为了做到收词量一定而词的覆盖面最大或词的覆盖面足够大而收词量最少,电子词典应在规范原则的基础上,遵守高频原则,尽可能多地选收那些使用频率高、适用面广的词语,尽量少收低频词。词语频度主要是通过对大规模语料的统计、分析获得。我们词语的频度,主要是参照电子工业部提供的“频度词表”(约4万词语)以及我们七五时选的五万词、北京语言学院编写的《现代汉语频率词典》等现有的9种