字符集与编码

字符集与编码

ID:44917671

大小:18.00 KB

页数:4页

时间:2019-11-05

字符集与编码_第1页
字符集与编码_第2页
字符集与编码_第3页
字符集与编码_第4页
资源描述:

《字符集与编码》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、字符集与编码一.字符集与编码之间的关系1.为了在计算机中存储与处理,必须对字符进行数字化编码。2.字符集规定了包含哪些字符,每个字符的值是什么3.编码规定了对于这些值,如何存储4.有些标准同时规定了字符集及其编码如:目前使用最广泛的西文字符集及其编码是ASCII字符集和ASCII码(ASCII是AmericanStandardCodeforInformationInterchange的缩写),它同时也被国际标准化组织(InternationalOrganizationforStandardization,ISO)批准为国际标准5.有些

2、标准同一个字符集可以有多种编码格式二.字符集及编码1.SBCS(singlebytecharacterset)1.1ASCII(1).7位编码,范围0x00-0x7F(2).码值32-127(0x20-0x7F)(3).0x00-0x1F之间的为控制字符,每个字符有一个缩写的名字(4).数字,大写字母,小写字母的编码都是连续的 目前使用最广泛的西文字符集及其编码是ASCII字符集和ASCII码(ASCII是AmericanStandardCodeforInformationInterchange的缩写),它同时也被国际标准化组织(In

3、ternationalOrganizationforStandardization,ISO)批准为国际标准。  基本的ASCII字符集共有128个字符,其中有96个可打印字符,包括常用的字母、数字、标点符号等,另外还有32个控制字符。标准ASCII码使用7个二进位对字符进行编码,对应的ISO标准为ISO646标准。下表展示了基本ASCII字符集及其编码:  字母和数字的ASCII码的记忆是非常简单的。我们只要记住了一个字母或数字的ASCII码(例如记住A为65,0的ASCII码为48),知道相应的大小写字母之间差32,就可以推算出其余

4、字母、数字的ASCII码。  虽然标准ASCII码是7位编码,但由于计算机基本处理单位为字节(1byte=8bit),所以一般仍以一个字节来存放一个ASCII字符。每一个字节中多余出来的一位(最高位)在计算机内部通常保持为0(在数据传输时可用作奇偶校验位)。  由于标准ASCII字符集字符数目有限,在实际应用中往往无法满足要求。为此,国际标准化组织又制定了ISO2022标准,它规定了在保持与ISO646兼容的前提下将ASCII字符集扩充为8位代码的统一方法。ISO陆续制定了一批适用于不同地区的扩充ASCII字符集,每种扩充ASCII字

5、符集分别可以扩充128个字符,这些扩充字符的编码均为高位为1的8位代码(即十进制数128~255),称为扩展ASCII码。1.2EBCDID广义二进制编码的十进制交换码(EBCDIC,ExtendedBinaryCodedDecimalInterchangeCode)(读作"ehb-suh-dik"或"ehb-kuh-dik"),是字母或数字字符的二进制编码,它是IBM为更大型的操作系统开发的。EBCDIC是用于IBMS/390服务器上的IBMOS/390操作系统的文本文件的编码。在一个EBCDIC文件中,每个字母或数字字符都用一个8

6、位的二进制数来表示(八个由0和1组成的字符串)。共有256个可能的字符(字母、数字和一些特殊字符)。  IBM的个人电脑和工作站操作系统不使用IBM所有的EBCDIC编码。相反的,它们使用文本的工业标准编码,ASCII码。转化程序允许不同的操作系统将文件从一种编码转化成另一种编码。1.3ISO8859-x(1)x=1~15,是一系列标准,对应13种不同的语言(2)ISO-8859-x是单字节编码,8位编码(3)0x00-0x7F部分跟ASCII兼容(4)0x80及以上部分部分除了少数字符,用来编码相应的语言的专有字符,各不相同。(5)

7、ISO-8859-1最常见,收集了西欧字符(6)因为没有一个全集字符集,ISO-8859-X之间不能互相转换。2.DBCS(doublebytecharacterset)2.1GB2312(1)兼容ASCII的部分用单字节编码(2)汉字部分的编码根据区位码进行,用两字节表示,第一个字节等于区位码的区码+0xA0,第一个字节等于区位码的位码+0xA0,因此每个字节都在0xA0以上(3)7445个符号,支持6763个简体汉字和682个符号·最常用的称为一级汉字,3755个,按照拼音排序·次常用的称为二级汉字,3008个,按照部首排序2.2

8、GBK(1)规范,没能成为标准,但随着Windows流行很广泛。(2)与GB2312向下兼容(3)比GB2312增加了大量的繁体字和异体字(4)首字节扩展到0x81-0xFE,第二个字节扩展到0x40-0xFE。2394

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。