欢迎来到天天文库
浏览记录
ID:33692355
大小:31.00 KB
页数:4页
时间:2019-02-28
《汉语优越性误区》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、清理“汉字优越”论的误导发布时间:2006-3-1522:46:09被阅览数:802次来源:2006年1月11日人民网文字〖大中小〗自动滚屏(右键暂停) 米阿仑 多年来,严重违背科学技术原理的“汉字优越”论十分盛行,对社会造成极大误导,对中文信息科技发展也造成极大干扰。要自主创新地发展核心技术和争取获得中文信息科技发展的战略主动权,就需要对“汉字优越”论的误导做一番清理。 (一)1989年,“汉字优越”论开始弥漫大陆。当时,最流行的一个说法是:联合国文件中,汉字印刷的文件最薄,所以,汉字比英文等文字更优越。由于鼓吹者有联合国总部翻译
2、工作的经历,其说法蒙住了许多人。 做任何比较都有个起码前提:条件和方式相同。然而,英文书写和汉字书写是不同条件方式:英文是字母符号单线字符串方式,而汉字则是部首笔画平面绘画方式。如果汉字的部首笔画也用单线字符串方式,那么,一个汉字所需要的单线长度往往超过英文字母方式;如果英文词汇也用平面绘画方式,那么,它所需要的平面空间与汉字差不多。 举个例子,“中国人”用三个汉字符号,英文“CHINESE”用七个不可再分割的书写符号单线串写而成。然而,如果汉字也用不可再分割的符号以单线字符串方式书写,例如部首笔画,那就有“竖、折、横、竖”等14个
3、符号,比英文的字符串长得多。能因此而说英文印刷更薄,因而比中文的汉字更“优越”吗?当然不能。所谓“联合国文件中,汉字印刷的文件最薄,因而汉字更优越”的说法,不具备起码的比较分析常识,那种比较是毫无意义的。 (二)“汉字优越”论的鼓吹者们说,汉字平均信息量大,所以,汉字比英文更优越。这是望文生义的说法。信息学基本原理说明,某数据所使用的符号系统的平均信息量越大,它的不稳定性和消耗就越大,对数据管理和信息传递是不利因素。例如,英文平均信息熵是4.03比特左右,汉字是9.6比特左右,汉字平均信息量比英文符号大许多。做同样的数据作业,汉字符号
4、系统的总体消耗最大,其信息量大是不利因素。如果平均信息量大能换来更高的平均精密精确度(例如可靠性和避免歧义等等),或许也值得。可是,据海内外专业人员考察分析,汉字和英文等文字符号系统的平均多余度差不多;也就是说,汉字平均信息量大,并没有换来更高的精密精确度,并没有换得更可靠和更有效地避免歧义的实效。要达到大体相同的精密精确度和可靠性,汉字符号系统的消耗比英文符号系统高出许多,能说汉字比英文更“优越”吗?见到“大”就是好,占领了许多人的头脑,于是,见到“汉字平均信息量大”,就望文生义地以为那是多么“优越”,殊不知那是中文数据管理和传递的不
5、利因素。以“汉字信息量大”作“汉字优越”的理由,是违背信息学科学原理和基础知识的。 (三)“汉字优越”论的鼓噪者们说,计算机操作,汉字输入比英文还快,几个键敲下去就能出现整个词组短句,而英文却要一个个字母敲打,所以,汉字比英文更“优越”。这是缺乏计算机知识的说法。 了解计算机输入输出原理的人都知道,文字符号如何显示和键盘操作的关系,完全是人为程序所规定的。例如,有程序规定:Zhongguo=“中国”,ren=“人”,zgr=Zhongguo+ren。这样一来,连续敲打“zgr”就会显示“中国人”三个汉字。按照同样方法,英文输入输出也
6、编个程序,敲打“Shakespeare-12”就能显示整部《第十二夜》,几十万个英文符号都显示出来了,能因此而说英文输入比中文汉字输入快,因而英文文字系统比汉字文字系统更“优越”吗?显然不能。 英文的计算机操作普遍采用一个个字母输入的方法,是为了英文数据全面管理有统一的标准,是为了更好的成本效益,而并非是因为搞英文计算机数据管理的人员连如何规定词组短句的简单程序设计都不知道,更不是因为英文跟其它文字符号相比有什么“优劣”之分。 (四)“汉字优越”论还有个说法:“汉字所具有的象形表意特点,特别适用于现代科技,是一种更为理想的电脑语言。
7、”这个说法不符合事实,也不符合计算机工作原理。 自中文计算机技术开始发展以来,为汉字输入法而消耗的时间已有30多年,花费的资金和人力更是无法计算,可是,到目前为止,派出所户口登记和银行开户头因为汉字数据库不够用而出现的尴尬多次发生,中文数据传递和处理发生乱码的问题至今没有完全解决。现有汉字数据库是二字节,要包括所有汉字,就必须用四字节,其成本之高和效益之低是不言而喻的。更值得注意的是,就算汉字数据库建设完毕,那也不能满足中文数据全面管理的需要,一切还得从头做起。在这些事实面前,怎么能说是“汉字特别适用于现代科技”,是“更为理想的电脑语
8、言”呢? 所谓“电脑语言”,既不是英文,也不是中文或其他人类使用的语言文字符号,而是由“0”和“1”组成的二进制语言,即“机器语言”。不管某个数据的种类是图像、声音还是文字,它的计算机处理都是由二进制开关
此文档下载收益归作者所有