字符编码(字符集+编码+杂谈)

字符编码(字符集+编码+杂谈)

ID:6039819

大小:935.26 KB

页数:13页

时间:2017-12-31

字符编码(字符集+编码+杂谈)_第1页
字符编码(字符集+编码+杂谈)_第2页
字符编码(字符集+编码+杂谈)_第3页
字符编码(字符集+编码+杂谈)_第4页
字符编码(字符集+编码+杂谈)_第5页
资源描述:

《字符编码(字符集+编码+杂谈)》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、字符编码知识总结目录字符编码知识总结1基础知识3常见字符集及编码3ASCII字符3GB2312(GB0)5GBK6GB180308BIG59Unicode9编码杂谈11大小端问题11Unicode与UTF-8之间的转换11ANSI编码12基础知识字符:各种文字和符号的总称,包括各国家文字、标点符号、图形符号、数字等。编码:将汉字、字符变为计算机所熟悉的二进制的规则。解码:将二进制转换为汉字或字符的规则、过程。字符集:一个系统所支持的所有抽象字符的集合。字符编码:是一套规则,可以将符号转换为计算机可以接受的数字系统的数。常见字符集及编码ASCII字符ASCII字符集:即美国信息交换标准代码,是

2、基于拉丁字母的单字节编码系统。主要包括控制字符(回车、退格、换行),可显示字符(英文大小写字符、阿拉伯数字和西文字符)。ASCII编码:将ASCII字符集转换为计算机可接受的数字系统的数的规则。使用七位表示一个字符,共128个字符。为表示欧洲常用字符,对ASCII进行了扩展。ASCII扩展集使用8位表示一个字符,共256个字符。ASCII编码的优缺点:只能显示二十六个基本拉丁字母,阿拉伯数字,和英式标点符号。映射规则:如下图GB2312(GB0)GB2312字符:包括6763个简体汉字,还包括数学符号、罗马希腊的字母、日文的假名。而且将ASCII中原本包含的数字、标点、字母重新编为两个字节长

3、的编码,即所说的“全角”字符。而原来127号以下的称为“半角”字符。GB2312编码:将127号之后的字符去掉,规定:一个小于127的字符的意义与原来相同,但两个大于127的字符连在一起时就表示一个汉字,前面的字节(高字节)从0xA1用到0xF7,后面一个字节(低字节)从0xA1到0xFE。GB2312的特点:所收录的汉字已经包含了99.75%的汉字,但是对于人名(如中国总理朱镕基的“镕”),古汉语、台湾香港使用的繁体字、日语朝鲜语等方面出现的罕用字不能处理,从而导致GBK的出现。映射规则:如下图GBKGBK字符:GBK向下完全兼容GB2312-80编码。支持GB2312-80编码不支持的部

4、分中文姓,中文繁体,日文假名,还包括希腊字母以及俄语字母等字母。GBK编码:字符有一字节和双字节编码,00–7F范围内是一位,和ASCII保持一致,此范围内严格上说有96个文字和32个控制符号。之后的双字节中,前一字节是双字节的第一位。总体上说第一字节的范围是81–FE(也就是不含80和FF),第二字节的一部分领域在40–7E,其他领域在80–FE。GBK亦采用双字节表示,总体编码范围为8140-FEFE,首字节在81-FE之间,尾字节在40-FE之间,剔除xx7F一条线。如图:GBK的特点:这种编码不支持韩国字,也是其在实际使用中与unicode编码相比欠缺的部分。GBK映射规则:GB18

5、030GB18030字符:在GBK基础上增加了CJK统一汉字扩充A、扩充B的汉字。与GBK基本兼容,支持GB 13000及Unicode的全部统一汉字,共收录汉字70244个。GB18030编码:单字节,其值从0到0x7F。双字节,第一个字节的值从0x81到0xFE,第二个字节的值从0x40到0xFE(不包括0x7F)。四字节,第一个字节的值从0x81到0xFE,第二个字节的值从0x30到0x39,第三个字节从0x81到0xFE,第四个字节从0x30到0x39。BIG5BIG5字符:是通行于台湾、香港地区的一个繁体字编码方案,俗称“大五码”。BIG编码:Big5码是一套双字节字符集,使用了双

6、八码储存方法,以两个字节来安放一个字。第一个字节称为“高位字节”,第二个字节称为“低位字节”。“高位字节”使用了0x81-0xFE,“低位字节”使用了0x40-0x7E,及0xA1-0xFE。UnicodeUnicode出现的原因:像天朝一样,当计算机传到世界各个国家时,为了适合当地语言和字符,设计和实现类似GB232/GBK/GB18030/BIG5的编码方案。这样各搞一套,在本地使用没有问题,一旦出现在网络中,由于不兼容,互相访问就出现了乱码现象。为了解决这个问题,一个伟大的创想产生了——Unicode。Unicode编码系统为表达任意语言的任意字符而设计。它使用4字节的数字来表达每个字

7、母、符号,或者表意文字(ideograph)。每个数字代表唯一的至少在某种语言中使用的符号。可以这样理解:Unicode是字符集,UTF-32/UTF-16/UTF-8是三种字符编码方案。Unicode字符:就已经包含了超过十万个字符(在2005年,Unicode的第十万个字符被采纳且认可成为标准之一)、一组可用以作为视觉参考的代码图表、一套编码方法与一组标准字符编码、一套包含了上标字、下标字等字符特性的枚举

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。