欢迎来到天天文库
浏览记录
ID:37014461
大小:122.00 KB
页数:11页
时间:2019-05-17
《计算机字符集》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、字符集目录[隐藏]概述ASCII字符集1.1.名称的由来2.2.特点3.3.包含内容4.4.技术特征5.5.ASCII扩展字符集GB2312字符集1.1.名称的由来2.2.特点3.3.包含内容4.4.技术特征5.5.编码举例BIG5字符集1.1.名称的由来2.2.特点3.3.字符编码方法4.4.Big5的局限性GB18030字符集1.1.名称的由来2.2.特点3.3.编码方法4.4.包含的内容Unicode字符集1.1.名称的由来2.2.特征3.3.编码方法4.4.UTF-8编码5.5.UTF-16和UTF-32编码概述ASCII字符集1.1.名称的由来2.2.特点3.3.包含内容4.4
2、.技术特征5.5.ASCII扩展字符集GB2312字符集1.1.名称的由来2.2.特点3.3.包含内容4.4.技术特征5.5.编码举例BIG5字符集1.1.名称的由来2.2.特点3.3.字符编码方法4.4.Big5的局限性GB18030字符集1.1.名称的由来2.2.特点3.3.编码方法4.4.包含的内容Unicode字符集1.1.名称的由来2.2.特征3.3.编码方法4.4.UTF-8编码5.5.UTF-16和UTF-32编码[编辑本段]概述字符(Character)是各种文字和符号的总称,包括各国家文字、标点符号、图形符号、数字等。字符集(Characterset)是多个字符的集合,
3、字符集种类较多,每个字符集包含的字符个数不同,常见字符集名称:ASCII字符集、GB2312字符集、BIG5字符集、GB18030字符集、Unicode字符集等。计算机要准确的处理各种字符集文字,需要进行字符编码,以便计算机能够识别和存储各种文字。中文文字数目大,而且还分为简体中文和繁体中文两种不同书写规则的文字,而计算机最初是按英语单字节字符设计的,因此,对中文字符进行编码,是中文信息交流的技术基础。本文将按照字符集的时间顺序讨论几种典型的字符集,选取几种代表性的中文字符集,研究历史由来、特点、技术特征。[编辑本段]ASCII字符集 1.名称的由来 ASCII(AmericanSt
4、andardCodeforInformationInterchange,美国信息互换标准代码)是基于罗马字母表的一套电脑编码系统。 2.特点 它主要用于显示现代英语和其他西欧语言。它是现今最通用的单字节编码系统,并等同于国际标准ISO646。 3.包含内容 控制字符:回车键、退格、换行键等。 可显示字符:英文大小写字符、阿拉伯数字和西文符号 4.技术特征 7位(bits)表示一个字符,共128字符 5.ASCII扩展字符集 7位编码的字符集只能支持128个字符,为了表示更多的欧洲常用字符对ASCII进行了扩展,ASCII扩展字符集使用8位(bits)表示一个字符,共25
5、6字符。 ASCII扩展字符集比ASCII字符集扩充出来的符号包括表格符号、计算符号、希腊字母和特殊的拉丁符号。[编辑本段]GB2312字符集 1.名称的由来 GB2312又称为GB2312-80字符集,全称为《信息交换用汉字编码字符集·基本集》,由原中国国家标准总局发布,1981年5月1日实施。 2.特点 GB2312是中国国家标准的简体中文字符集。它所收录的汉字已经覆盖99.75%的使用频率,基本满足了汉字的计算机处理需要。在中国大陆和新加坡获广泛使用。 3.包含内容 GB2312收录简化汉字及一般符号、序号、数字、拉丁字母、日文假名、希腊字母、俄文字母、汉语拼音符号、
6、汉语注音字母,共7445个图形字符。其中包括6763个汉字,其中一级汉字3755个,二级汉字3008个;包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的682个全角字符。 4.技术特征 (1)分区表示: GB2312中对所收汉字进行了“分区”处理,每区含有94个汉字/符号。这种表示方式也称为区位码。 各区包含的字符如下:01-09区为特殊符号;16-55区为一级汉字,按拼音排序;56-87区为二级汉字,按部首/笔画排序;10-15区及88-94区则未有编码。 (2)双字节表示 两个字节中前面的字节为第一字节,后面的字节为第二字节。习惯上称第一字节为“高字节
7、”,而称第二字节为“低字节”。 “高位字节”使用了0xA1-0xF7(把01-87区的区号加上0xA0),“低位字节”使用了0xA1-0xFE(把01-94加上0xA0)。 5.编码举例 以GB2312字符集的第一个汉字“啊”字为例,它的区号16,位号01,则区位码是1601,在大多数计算机程序中,高字节和低字节分别加0xA0得到程序的汉字处理编码0xB0A1。计算公式是:0xB0=0xA0+16,0xA1=0xA0+1。[编
此文档下载收益归作者所有