欢迎来到天天文库
浏览记录
ID:17449825
大小:54.00 KB
页数:5页
时间:2018-08-31
《人机分词差异及规范词典的收词依据》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、5“人”“机”分词差异及规范词典的收词依据——对645条常用词未见于《现汉》的思考刊《辞书研究》2000年第2期厦门大学苏新春顾江萍一、笔者在最近作的一项词语调查中,偶然发现一个颇有意味的数据,《现代汉语频率词典》(下称《频率》)统计出来的8548条常用词,《现代汉语频率词典》,北京语言学院语言教学研究所编,北京语言学院出版社,1986版。491-656页:使用度最高的前8000个词词表。竟有645条没有在《现代汉语词典》(下称《现汉》)出现。本来不同性质、不同规模,甚或不同版本的词典之间,它们的收词不同是很正常的,可《现汉》是以收现代汉语普通话词语为己任的规范词典,且收
2、词规模达56000多条,却没有收齐只占其词汇总量约15%的最常用的词语,这就引人深思:没收的词语是什么样的?有何性质和特点?与《现汉》现有的词语有何区别?《现汉》为什么没有收录它们?是《现汉》漏收还是有其它原因?作为规范词典的《现汉》应如何确定常用词的收录?正是这些疑问促使笔者开展了进一步的调查。《现汉》是我国目前为止反映现代汉语词汇最具权威性的词典。调查的《现汉》是第二版,即1983年版,内容与1979年第一版基本相同。《频率》是我国第一部有严格计量统计数据的现代汉语汇频率词典,1986年出版,实际研究工作始于1979年。两书截取语料的时间相当接近,具有较好的可比性。《
3、现汉》在1996年出版了修订本,645条常用词中只有80条增收其中,而占88%的词语仍未收,因此以第二版的《现汉》为基本比较材料,再辅之以与“修订版”的比较。未见于《现汉》的645条常用词中,双音词370条,单音词169条。645条中使用度最高的位于第57位(动词的“到”),最低的位于8547位(名词的“比方”),平均数为4921,这个平均数表明它们在8548条常用词中排在比较前的位置。在各千字段的分布情况如下:曲线图显示645条未见词语在8548条常用词的各千字段中呈缓慢上升的趋势,但差别不大,也就是说645条未收词语均衡分布于按序号排列的8548条常用词之中,其常用性
4、有较普遍的性质。那么这些未见于《现汉》的常用词有着什么样的结构特征?据此可分出以下四类:第一类“固定语”5。所谓固定语就是它们不太像一般的词语那样有较强的独立运用和较完整的意义的特点,只是在言语使用中紧密地凝合在一起。如“要不是4106”、“极为7495”、“售货2721”、“伤病员6886”、“不得不2296”、“就是说1970”、“绝大多数8297”、“这样一来4766”、“从中6337”、“为的是6013”、“恨不得5811”、“老是4183”、“较为6633”、“越来越1218”。(词语后面的数字表示8548条常用词的顺序号)词语后面的数字为《现代汉语频率词典》按
5、使用度统计的8548条常用词的序号,序号愈靠前的表示使用度愈高,愈常见。本类共88例,占13.6%。第二类“词性分词”。指的是根据不同的语法功能而将同形同音近义,或同形近音近义的词分立为多个词语,而这些词在《现汉》中都是作为一个词出现的。如“声明(动)5794”——“声明(名)7369”,“箱(名)2502”——“箱(量)7181”,“来回(副)4698”——“来回(名)7478”,“极(副)405”——“极(名)8087”。本类共205例,占31.8%。第三类“固定搭配结构”。如“一面……,一面……1592”、“既……又……7629”、“……来……去4412”、“对……
6、来说3982”、“……分之……716”、“有……点儿736”。本类共24例,占3.7%。第四类“一般词语”。它们与人们的语感较接近,一般都看作是通用词语,如“变成509”、“高产7817”、“全会5551”、“判处6271”、“花市5705”。本类共328例,占50.9%。这部分内容相当复杂,下面将会作专门的分析。上述一、二、三类显示《频率》对词语的切分是有其特殊之处的。主要表现为两点,首先,它看重的是在言语实际中的凝固程度与复现率,只要具备这样的条件就可以切分出来成“词”,故有了类似“来自”“较为”“不得不”“之上”“有所”“得慌”“不是吗”这样的词语。这种切分原则跟通
7、常要求“词”具有“意义的完整性”和“使用上的独立性”有着明显的区别。把结构的凝固程度与频率的复现率放在首要地位来考虑,放在超出于词语意义的完整性和使用上的独立性来考虑,恰恰是词汇计量统计的基本特点。固定搭配结构大量出现的原因也在于此。《现汉》中已经有了34例固定搭配结构的词目,如“半……不……”、“大……特……”、“似……非……”等,只是《频率》更加注意反映这种固定搭配结构,提炼出来立目的数量多,划分细。其次,重视语法功能的差异,不同语法功能的用法都切分出来独立为不同的词目。拙文《同形词与“词”的意义范围》苏新春《同形词与“词
此文档下载收益归作者所有