欢迎来到天天文库
浏览记录
ID:15172793
大小:417.16 KB
页数:4页
时间:2018-08-01
《[尚硅谷]_宋红康_计算机常见编码》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、“玩转”Java系列—————————————————————————————计算机常见编码一.有关编码的基础知识1.位bit最小的单元字节byte机器语言的单位1byte=8bits1KB=1024byte1MB=1024KB1GB=1024MB2.二进制binary八进制octal十进制decimal十六进制hex3.字符:是各种文字和符号的总称,包括各个国家的文字,标点符号,图形符号,数字等。字符集:字符集是多个符号的集合,每个字符集包含的字符个数不同。字符编码:字符集只是规定了有哪些字符,而最终决定采用哪些字符,每一个字符用多少字节表示等问题,则是由编码来决定的。计算机要
2、准确的处理各种字符集文字,需要进行字符编码,以便计算机能够识别和存储各种文字。二.常见字符集的编码介绍:常见的字符集有:ASCII字符集,GB2312字符集,BIG5字符集,GB18030字符集,Unicode字符集,下面一一介绍:1.ASCII字符集:定义:美国信息互换标准代码,是基于罗马字母表的一套电脑编码系统,主要显示英语和一些西欧语言,是现今最通用的单字节编码系统。包含内容:控制字符(回车键,退格,换行键等)可显示字符(英文大小写,阿拉伯数字,西文符号)扩展字符集(表格符号,计算符号,希腊字母,拉丁符号)编码方式:第0-31号及127号是控制字符或通讯专用字符;第3
3、2-126号是字符,其中48-57号为0-9十个阿拉伯数字,65-90号为26个大写英文字母,97-122号为26个英文小写字母,其余为一些标点符号,运算符号等。在计算机存储单元中,一个ASCII码值占一个字节(8个二进制位),最高位是用作奇偶检验位。【奇偶校验是指:在代码传送的过程中,用来检验是否出错的一种方法。】奇偶校验分为奇校验和偶校验。奇校验规定:正确的代1【更多Java–Android资料下载,可访问尚硅谷(中国)官网www.atguigu.com下载区】“玩转”Java系列—————————————————————————————码一个字节中1的个数必须是奇数,若非奇
4、数,则在最高位添1;偶校验规定:正确的代码一个字节中1的个数必须是奇数,若非奇数,则在最高位添1。2.GB2312字符集:定义:信息交换用汉字编码字符集。是中国标准的简体中文字符集,它所收录的汉字已经覆盖99.75%的使用频率,在中国大陆和新加坡广泛使用。包含内容:GB2312收录了简化汉字及一般字符,序号,数字,拉丁字母,日文假名,希腊字母,俄文字母,汉语拼音符号,汉语注音字母,共7445个图形字符。其中包括6763个汉字,一级汉字3755个,二级汉字3008个。编码方式:GB2312对所收汉字进行了“分区”处理,每区含有94个汉字或者符号,这种表示方法也叫做“区位码”。
5、它是用双字节表示的,前面的字节为第一字节,又称“高字节”,后面的为第二字节,“低字节”。高位字节,把01-87区的区号加上0xA0(相当于数字160);低位字节把01-94区的区号加上0xA0(相当于数字160)。举个简单的小例子:第一个汉字——“啊”,它的区号为16,位号01,则区位码是1601。则高字节位:16+0xA0=0xB0;低字节位:01+0xA0=0xA1,所以“啊”的汉字处理编码为0xB0A1。3.GBK字符集:定义:GBK是GB2312字符集的扩展(K)(中国的中文编码表升级,融合了更多的中文文字符号。),它收录了21886个符号,它分为汉字区和图形符号区,汉
6、字区包括21003个字符。GBK字符集主要扩展了繁体中文字的支持。4.BIG5字符集:定义:又称大五码,由台湾五家软件公司创立。因为当时台湾没有一个标准的字符集,而且GB2312又没有收录繁体字,所以才推出了BIG5。包含内容:BIG5字符集共收录了13053个中文字,该字符集在台湾使用。但是没有考虑到社会上流通的人名,地方用字,方言用字,化学及生物科等用字,没有包含日文平假名及片假字母。编码方式:BIG5也采用双字节存储方法,一两个字节编码一个字。高位字节的编码范围是0xA1-0xF9,低位字节的编码范围是0xA1-0xFE。2【更多Java–Android资料下载,可访
7、问尚硅谷(中国)官网www.atguigu.com下载区】“玩转”Java系列—————————————————————————————5.GB18030字符集:定义:GB18030字符集标准解决汉字,日文假名,朝鲜语和中国少数民族文字组成的大字符集计算机编码问题。包含内容:该标准的字符总编码空间超过150万个编码位,收录了27484个汉字,覆盖中文,日文,朝鲜语和中国少数民族文字。满足中国大陆,香港,台湾,日本和韩国等东南亚地区信息交换多文种,大字量,多用途,统一编码格式的
此文档下载收益归作者所有