字符编码(ucs2,+unicode,+utf8,+gb2312)

字符编码(ucs2,+unicode,+utf8,+gb2312)

ID:33705845

大小:111.00 KB

页数:9页

时间:2019-02-28

字符编码(ucs2,+unicode,+utf8,+gb2312)_第1页
字符编码(ucs2,+unicode,+utf8,+gb2312)_第2页
字符编码(ucs2,+unicode,+utf8,+gb2312)_第3页
字符编码(ucs2,+unicode,+utf8,+gb2312)_第4页
字符编码(ucs2,+unicode,+utf8,+gb2312)_第5页
资源描述:

《字符编码(ucs2,+unicode,+utf8,+gb2312)》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、字符编码版本修订日期修订内容修订人V0.12008-12-1初始化V1.02008-12-11第一版V1.12008-12-13FirstreportedV1.22008-12-14添加ASCII码表V1.32008-12-18添加codepageV1.42008-12-23添加BOM91ASCIIAmericanStandardCodeforInformationInterchange,美国标准信息交换码。因为计算机只能表示和存储二进制的数据,所以需要对常用的52个字母,阿拉伯数字等字符进行编码

2、,为了便于信息交换,需要一个统一的标准,于是AmericanNationalStandardInstitute(ANSI)制定了这个ASCII码,并于1967年成为美国国家标准,后被ISO(InternationalStandardizationOrganization)国际标准化组织定为国际标准ISO646。ASCII属于单字节编码,即使用一个字节(8bytes)进行编码,因此最多只能表示256个字符。基础的ASCII使用7bits编码,最高位位为0,或者用于奇偶校验。ASCII编码适用于所有的

3、拉丁字母。0x00–0x1F:为控制字符ASCII编码可以满足美国的拉丁字母需求,但是不能满足其他语种的需求,例如中日韩的象形文字,所以导致下面编码的出现。具体定义如下:十六进制字符意义十六进制字符意义0x00NULL空字符0x100x01SOHStartofhead0x110x02STXStartoftext0x120x03ETXEndoftext0x130x04EOTEndofTransmission0x140x05ENQEnquiry0x150x06ACKAcknowledge0x160x0

4、7BELL铃声0x170x08BSBackspace0x180x09TABHorizontaltab0x190x0ALFLineFeed0x1A0x0BVTVerticaltab0x1B0x0C0x1C0x0DCRCarriagereturn0x1D0x0ESOShiftout0x1E0x0FSIShiftin0x1F91UCS国际标准ISO10646定义了通用字符集(UniversalCharacterSet,UCS)。UCS是所有其他字符集标准的一个超集。它保证与其他字符集是双向兼容的,就是说

5、,如果你将任何文本字符串翻译到UCS格式,然后再翻译回原编码,你不会丢失任何信息。UCS包含了用于表达所有已知语言的字符,不仅包括拉丁语,希腊语,斯拉夫语,希伯来语,阿拉伯语,亚美尼亚语和乔治亚语的描述,还包括中文,日文和韩文这样的象形文字,以及平假名,片假名,孟加拉语,旁遮普语,果鲁穆奇字符(Gurmukhi),泰米尔语,印.埃纳德语(Kannada),Malayalam,泰国语,老挝语,汉语拼音(Bopomofo),Hangul,Devangari,Gujarati,Oriya,Telugu以

6、及其他数也数不清的语。对于还没有加入的语言,由于正在研究怎样在计算机中最好地编码它们,因而最终它们都将被加入。这些语言包括Tibetian,高棉语,Runic(古代北欧文字),埃塞俄比亚语,其他象形文字,以及各种各样的印-欧语系的语言,还包括挑选出来的艺术语言比如Tengwar,Cirth和克林贡语(Klingon).UCS还包括大量的图形的,印刷用的,数学用的和科学用的符号,包括所有由TeX,Postscript,MS-DOS,MS-Windows,Macintosh,OCR字体,以及许多其他字

7、处理和出版系统提供的字符。ISO10646定义了一个31位的字符集。然而,在这巨大的编码空间中,迄今为止,只分配了前65534个码位(0x0000到0xFFFD)。这个UCS的16位子集称为基本多语言面(BasicMultilingualPlane,BMP)。将被编码在16位BMP以外的字符都属于非常特殊的字符(比如象形文字),且只有专家在历史和科学领域里才会用到它们。按当前的计划,将来也许再也不会有字符被分配到从0x000000到0x10FFFF这个覆盖了超过100万个潜在的未来字符的21位的编

8、码空间以外去了。ISO10646-1标准第一次发表于1993年,定义了字符集与BMP中内容的架构。定义BMP以外的字符编码的第二部分ISO10646-2正在准备中,但也许要过好几年才能完成。新的字符仍源源不断地加入到BMP中,但已经存在的字符是稳定的且不会再改变了。UCS不仅给每个字符分配一个代码,而且赋予了一个正式的名字,表示一个UCS或Unicode值的十六进制数,通常在前面加上"U+",就象U+0041代表字符"拉丁大写字母A".UCS字符U+0000到U+007F与US-A

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。