utf-8 and unicode faq

utf-8 and unicode faq

ID:14329882

大小:63.00 KB

页数:22页

时间:2018-07-28

utf-8 and unicode faq_第1页
utf-8 and unicode faq_第2页
utf-8 and unicode faq_第3页
utf-8 and unicode faq_第4页
utf-8 and unicode faq_第5页
资源描述:

《utf-8 and unicode faq》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、UTF-8andUnicodeFAQUTF-8andUnicodeFAQUTF-8编码提供了一种简便而向后兼容的方法,使得那种完全围绕ASCII设计的操作系统,比如Unix,也可以使用Unicode.UTF-8就是Unix,Linux已经类似的系统使用Unicode的方式.现在是你了解它的时候了.什么是UCS和ISO10646?国际标准ISO10646定义了通用字符集(UniversalCharacterSet,UCS).UCS是所有其他字符集标准的一个超集.它保证与其他字符集是双向兼容的.就是说,如果你将任何文本字符串翻译到UCS格式,然后再翻译回原编码,你不会丢失任何信息.U

2、CS包含了用于表达所有已知语言的字符.不仅包括拉丁语,希腊语,斯拉夫语,希伯来语,阿拉伯语,亚美尼亚语和乔治亚语的描述,还包括中文,日文和韩文这样的象形文字,以及平假名,片假名,孟加拉语,旁遮普语果鲁穆奇字符(Gurmukhi),泰米尔语,印.埃纳德语(Kannada),Malayalam,泰国语,老挝语,汉语拼音(Bopomofo),Hangul,Devangari,Gujarati,Oriya,Telugu以及其他数也数不清的语.对于还没有加入的语言,由于正在研究怎样在计算机中最好地编码它们,因而最终它们都将被加入.这些语言包括Tibetian,高棉语,Runic(古代北欧文

3、字),埃塞俄比亚语,其他象形文字,以及各种各样的印-欧语系的语言,还包括挑选出来的艺术语言比如Tengwar,Cirth和克林贡语(Klingon).UCS还包括大量的图形的,印刷用的,数学用的和科学用的符号,包括所有由TeX,Postscript,MS-DOS,MS-Windows,Macintosh,OCR字体,以及许多其他字处理和出版系统提供的字符.ISO10646定义了一个31位的字符集.然而,在这巨大的编码空间中,迄今为止只分配了前65534个码位(0x0000到0xFFFD).这个UCS的16位子集称为基本多语言面(BasicMultilingualPlane,BMP

4、).将被编码在16位BMP以外的字符都属于非常特殊的字符(比如象形文字),且只有专家在历史和科学领域里才会用到它们.按当前的计划,将来也许再也不会有字符被分配到从0x000000到0x10FFFF这个覆盖了超过100万个潜在的未来字符的21位的编码空间以外去了.ISO10646-1标准第一次发表于1993年,定义了字符集与BMP中内容的架构.定义BMP以外的字符编码的第二部分ISO10646-2正在准备中,但也许要过好几年才能完成.新的字符仍源源不断地加入到BMP中,但已经存在的字符是稳定的且不会再改变了.UCS不仅给每个字符分配一个代码,而且赋予了一个正式的名字.表示一个UCS

5、或Unicode值的十六进制数,通常在前面加上"U+",就象U+0041代表字符"拉丁大写字母A".UCS字符U+0000到U+007F与US-ASCII(ISO646)是一致的,U+0000到U+00FF与ISO8859-1(Latin-1)也是一致的.从U+E000到U+F8FF,已经BMP以外的大范围的编码是为私用保留的.什么是组合字符?UCS里有些编码点分配给了组合字符.它们类似于打字机上的无间隔重音键.单个的组合字符不是一个完整的字符.它是一个类似于重音符或其他指示标记,加在前一个字符后面.因而,重音符可以加在任何字符后面.那些最重要的被加重的字符,就象普通语言的正字法

6、(orthographiesofcommonlanguages)里用到的那种,在UCS里都有自己的位置,以确保同老的字符集的向后兼容性.既有自己的编码位置,又可以表示为一个普通字符跟随一个组合字符的被加重字符,被称为预作字符(precomposedcharacters).UCS里的预作字符是为了同没有预作字符的旧编码,比如ISO8859,保持向后兼容性而设的.组合字符机制允许在任何字符后加上重音符或其他指示标记,这在科学符号中特别有用,比如数学方程式和国际音标字母,可能会需要在一个基本字符后组合上一个或多个指示标记.组合字符跟随着被修饰的字符.比如,德语中的元音变音字符("拉丁大

7、写字母A加上分音符"),既可以表示为UCS码U+00C4的预作字符,也可以表示成一个普通"拉丁大写字母A"跟着一个"组合分音符":U+0041U+0308这样的组合.当需要堆叠多个重音符,或在一个基本字符的上面和下面都要加上组合标记时,可以使用多个组合字符.比如在泰国文中,一个基本字符最多可加上两个组合字符.什么是UCS实现级别?不是所有的系统都需要支持象组合字符这样的UCS里所有的先进机制.因此ISO10646指定了下列三种实现级别:级别1不支持组合字符和HangulJamo字

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。