论汉字字频统计方法的改进的策略

论汉字字频统计方法的改进的策略

ID:8938444

大小:60.00 KB

页数:11页

时间:2018-04-12

论汉字字频统计方法的改进的策略_第1页
论汉字字频统计方法的改进的策略_第2页
论汉字字频统计方法的改进的策略_第3页
论汉字字频统计方法的改进的策略_第4页
论汉字字频统计方法的改进的策略_第5页
资源描述:

《论汉字字频统计方法的改进的策略》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、论汉字字频统计方法的改进的策略一、汉字字频统计的概念在汉语汉字的语境下,汉字字频常常简称为字频,汉字字频是汉字使用的一个重要属性。冯志伟指出:传统的文字学认为,汉字具有形、音、义三个要素,但是,汉字作为记录汉语的符号,它必须作为一种交际工具而存在,在交际过程中,有的汉字使用得多些,有的使用的少些,呈现出一定的统计规律性。因此,从使用的角度来看,汉字还具有第四个要素字频。①顾名思义,字频就是字的使用频度。苏培成在《现代汉字学纲要》(增订本)给字频下的定义是:字频就是汉字的使用频度,是指在一定的历史时期内经抽样取得的文字资

2、料里,每一个汉字的使用次数与抽样资料总字数的比例。②他所说的字频,就是指汉字字频。沙宗元在《文字学术语规范研究》中收了字频这个词条,他给出的定义是:某个汉字在一定语料中使用(出现)的次数与样本总字数(又叫样本容量)之比。③这个字频也指汉字字频。两家的定义大体不错,但表述不够严密。第一,用来作为字频统计的文字资料不一定是经抽样取得的,如《史记》的字频统计这类专书字频统计是根据特定目的选取的,而非经抽样取得的。经抽样取得不能作为字频统计的必要条件。第二,总字数的说法比较含混,应该改作总字次。第三,样本总字数的样本表意不明确

3、。综合学术界的研究,汉字字频可以定义为:个体汉字字符在按特定原则选定的文本中出现的次数与选定文本总字次之比。论汉字字频统计方法的改进的策略一、汉字字频统计的概念在汉语汉字的语境下,汉字字频常常简称为字频,汉字字频是汉字使用的一个重要属性。冯志伟指出:传统的文字学认为,汉字具有形、音、义三个要素,但是,汉字作为记录汉语的符号,它必须作为一种交际工具而存在,在交际过程中,有的汉字使用得多些,有的使用的少些,呈现出一定的统计规律性。因此,从使用的角度来看,汉字还具有第四个要素字频。①顾名思义,字频就是字的使用频度。苏培成在《

4、现代汉字学纲要》(增订本)给字频下的定义是:字频就是汉字的使用频度,是指在一定的历史时期内经抽样取得的文字资料里,每一个汉字的使用次数与抽样资料总字数的比例。②他所说的字频,就是指汉字字频。沙宗元在《文字学术语规范研究》中收了字频这个词条,他给出的定义是:某个汉字在一定语料中使用(出现)的次数与样本总字数(又叫样本容量)之比。③这个字频也指汉字字频。两家的定义大体不错,但表述不够严密。第一,用来作为字频统计的文字资料不一定是经抽样取得的,如《史记》的字频统计这类专书字频统计是根据特定目的选取的,而非经抽样取得的。经抽样

5、取得不能作为字频统计的必要条件。第二,总字数的说法比较含混,应该改作总字次。第三,样本总字数的样本表意不明确。综合学术界的研究,汉字字频可以定义为:个体汉字字符在按特定原则选定的文本中出现的次数与选定文本总字次之比。对使用中的汉字进行字频统计,并按字频的高低排列汉字的顺序即可以得出汉字的频序,依据频序给汉字分级可以划分出汉字的频级,汉字的频级是对使用中的汉字进行分级的主要依据,对汉字规范、汉字教学及汉字信息处理有重要意义。汉字字频统计是汉字研究中的一项具有实用意义的重要工作。二、汉字字频统计的主要成果以往的汉字字频统计

6、与研究取得了重要的研究成果,为汉字的研究与应用作出了重要的贡献。字频统计一般分综合字频统计及分类字频统计两类。其代表性成果主要有以下几项:现代汉字综合字频统计的主要成果有:1.《汉字频度表》,此表于1976年12月由七四八工程查频组完成。本次字频统计使用的语料时间范围为1973-1975年,语料内容包括科学技术、文学艺术、政治理论和新闻通讯四类,统计方式为手工操作。备选语料3亿多字次,选用语料2160多万字次,统计得出6376个字种。2.《汉字频率表》,此表包含在北京语言学院语言教学研究所编的《现代汉语频率辞典》中,1

7、986年6月由北京语言学院出版社出版。本次字频统计使用的语料时间范围较多选用20世纪40年代至70年代的作品,语料内容包括报刊政论文章及专著、科普书刊材料、剧本和日常口语材料和各种体裁的文学作品四类,统计方式采用人工和计算机相结合。选用语料180万字次,统计得出不同汉字4574个。(参考该书前言和编纂说明)3.《现代汉语字频统计表》,此表由北京航空学院计算机科学与工程系和国家语言文字委员会汉字处研制,于1992年1月由语文出版社出版,出版署名单位是国家语言文字工作委员会和国家标准局。本次字频统计使用的语料时间范围为19

8、77-1982年,语料内容包括自然科学和社会科学两大类,统计方式完全采用计算机自动统计,选用语料13800万字次,抽取出的统计样本语料11873029字次,统计得出汉字7754个。(参考该书说明)4.《报纸、广播电视、网络用字总表》,本表收录在中国语言生活状况报告课题组编《中国语言生活状况报告(2005)》中,《报告》于2006年

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。