汉语信息编码方法

汉语信息编码方法

ID:5336438

大小:201.40 KB

页数:8页

时间:2017-12-08

汉语信息编码方法_第1页
汉语信息编码方法_第2页
汉语信息编码方法_第3页
汉语信息编码方法_第4页
汉语信息编码方法_第5页
资源描述:

《汉语信息编码方法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、汉语信息编码方法从广义上讲,人类语言的文字符号就是对人类语言的视觉编码符号。文字编码的概念,是随人类信息化社会的来临而形成的。可以理解,电脑的最初诞生是以英语为背景的,英语的文字符号就是26个拉丁字母,其他非拉丁字母的文字符号要适应当代电脑,就必须直接或间接的“拉丁化”,才能直接使用电脑的国际标准键盘模式的输入。这样的过程,就是非拉丁字母文字的实用方式,也就是对非拉丁字母文字实现编码输入。一、什么是汉语信息编码世界上没有没有语言的民族,可是却有没有文字的语言。可见,人类的语言和人类的文字是不同的两回事,但彼此之间也有着割不断的联系----语言是主体,文字是依附

2、。汉字是记录汉语(包括诸方言)的一种文字体系,也是灿烂的中华古代文化的一部分,对推动整个中华民族的历史有着不可磨灭的功绩。但是汉字要适应和适合现在信息媒体,最简单的方法就是编码替代。汉字的编码,已经为世人所理解,也能有广泛的社会效益。但是,因为汉字特征的复杂性,使得人们根据这些特征或个人的理解,可以设计出不同的汉字编码,导致了当前汉字编码众多,人们无所适从的尴尬局面。华文汉语信息编码是一种对汉语语言信息本身进行编码(语音信息,语法信息,语义信息)的超级编码体系。它与文字符号的功能有些相似,因此这个系统完全可以不依赖于汉字符号而表达出汉语信息,即人们可以直接“读

3、懂”这样的编码来表示的汉语意思。现代汉语的文字符号还不是当代及未来人类社会中流行的字母符号体系,而是表意的汉字,使得汉语语言本身被完全而真实地融入现代信息媒体的现实状况不尽人意。在当前汉语语文现实的历史背景下,为了比较完美地解决汉语语言信息在现代和未来人类信息媒体中的流通和传递,提出了“汉语信息编码”的概念。它不等同于现在的“汉字编码”,只为汉字本身服务,而“汉语信息编码”是为现代规范汉语语言本身服务的一种信息处理技术,其根本目的是让现代汉语语言信息——语音信息、语义信息和语法信息能在现代人类信息媒体中体现出来,满足人们在当代信息媒体——计算机及其网络、现代通

4、讯媒体等方面对汉语语言信息的需要。汉语信息编码还不等于“文字”,因为它还没有正式公布一套完整的构词法、证词法和造句法体系等文字系统所必备的要素。汉语信息编码只是不依赖于汉字而依赖于汉语词语的语言学信息对汉语的词语所做的编码。“汉语信息编码”的基本设计思想是针对以汉语语言学和汉语词典理论为指导,对现代汉语信息(语音信息,语义信息和语法信息)实行拉丁化的字母编码,从而能在现代媒体中全面地完成汉语信息的交际与传递。“汉语信息编码”的发展方向是:在现代信息媒体中实现规范人们汉语汉字词汇的录入与运用;建立规范的现代汉语词汇信息库;成为电脑多语言机器翻译的中间媒介等多方位

5、的现代信息交际与交流。所以,“汉语信息编码”是解决汉语本身在现代信息媒体中的诸种问题的一览子中间方案。如何处理汉语的最小语音单位(即大多数情况下,由一个汉字所表达的语言意义)在信息编码中的形式,是所设计的汉语信息编码能否合理,实用的关键所在。然后,就是信息编码的词汇单位,语法的表达形式(可称为“语法视觉符号”),古语成分,外来语(必要时还要考虑方言)等。在信息编码的框架上,要同时考虑两大原则:一是既要以科学性为主导,又要有极大的实用性。过分地注重科学性,会编码体系理想化,抽象化和复杂化,从而使设计出的信息编码失去了实用的价值而难以被社会所接受。二是既要充分体现

6、汉语的特色,又要顾及汉语信息编码的形式与的国际上各大信息编码的书写习惯有相似之处,以利于汉语信息的国际交流。过分强调汉语的民族特点(或“中国特色”),无疑,不利于汉语进一步融入国际信息社会,也无助于扩大汉语在世界上的威望。由于我们所需要的汉语信息编码是记录语言本身的码元符号体系,是语言信息的“衣服”,这件“衣服”的腰围与袖筒不能做得一样大。这就是说,所设计的信息编码还必须跟语言的实际状态相吻合。汉语跟其他民族所用的语言一样,是一种自然语言(不是世界语那样的人造语言),其内部结构(语义,语音,语法及其彼此的配合关系)并不是理想化的,所以,对自然语言设计出的信息编

7、码也不可能是理想化的,设计一个好的汉语信息编码要比设计一个好的汉语汉字编码困难得多,复杂得多。汉语信息编码的两个突出优点:一是方便不懂汉字的人学习汉语汉字;二与汉字无关的汉语输入,广义的汉语语言信息编码还包括对汉语的语法信息进行系统编码,这里所说的汉语信息编码,是指一般意义上的信息编码,即对汉字词语所代表的汉语信息进行编码。汉语信息编码跟华文汉字编码是互补的关系。前者很适合汉语本身的信息化教学,而后者更适合于汉字本身的信息化教学。所以,汉语信息编码的最大用处就是服务于汉语本身的教学和应用,比起华文汉字编码来,更具有超越性和广泛性。作为世界最大语言的汉语,具有一

8、套科学的语法系统和比较完美,健全的文字

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。