第5讲-第1章数据的表示与编码.ppt

第5讲-第1章数据的表示与编码.ppt

ID:48157905

大小:1.04 MB

页数:33页

时间:2020-01-17

第5讲-第1章数据的表示与编码.ppt_第1页
第5讲-第1章数据的表示与编码.ppt_第2页
第5讲-第1章数据的表示与编码.ppt_第3页
第5讲-第1章数据的表示与编码.ppt_第4页
第5讲-第1章数据的表示与编码.ppt_第5页
资源描述:

《第5讲-第1章数据的表示与编码.ppt》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第1章数据的表示与编码计算机科学概论第5讲主要内容:字符的编码——ASCII码(掌握)汉字的编码(理解)Unicode码(了解)静态图像的编码(了解)动态数据的编码(了解)1.3非数值信息的编码随着现代计算机运用的深入,计算机不仅仅进行科学计算,实际上更大量的工作是用于处理人们日常工作和生活中最常使用的信息形式,也就是所谓的非数值型数据,包括语言文字、逻辑语言、视频图像等非数值信息。这需要为计算机找到一种合适的方法来表达这些信息。计算机中使用了不同的编码来表示和存储数字、文字符号、声音、图片和图像(视频)信息。编码(或代码)通常指

2、的是一种在人和机器之间进行信息转换的系统。编码是人们在实践中逐步创造的一种用较少的符号来表达较复杂信息的表示方法。1.3非数值信息的编码1、字符的编码—ASCII码字符是非数值型数据的基础,字符与字符串数据是计算机中用得最多的非数值型数据。在使用计算机的过程中,人们需要利用字符与字符串编写程序、表示文字及各类信息,以便与计算机进行交流。为了使计算机硬件能够识别和处理字符,必须对字符按一定规则用二进制进行编码,使得系统里的每一个字母有唯一的编码;文本中还存在数字和标点符号,所以也必须有它们的编码。美国最先制定了符合他们使用需要的美国

3、标准信息交换代码(AmericanStandardCodeforInformationInterchange),简称ASCII码。1.3非数值信息的编码ASCII码包含7位二进制编码,可表示27=128个不同的字符。标准ASCII码表可以看成由三部分组成:第一部分:00H~1FH,共32个编码,一般用来通讯或作为控制来用,有些则不能显示,但能看到其效果(如换行、退格)。如表1-4所示。1.3非数值信息的编码表1-4标准ASCII码表:00H~1FH1.3非数值信息的编码第二部分:20H~7FH,共96个其中编码值20H表示空格,其

4、余95个用来表示阿拉伯数字、英文字母大小写和下划线、括号等符号,这些字符都可以在屏幕上显示,见表1-5所示。表1-5标准ASCII码表:20H~7FH1.3非数值信息的编码例1-28:已知字符“A”的ASCII码为41H,由此推算01000011B所对应的字符是()。已知字符“M”的ASCII码为4DH,由此推算字符“F”的ASCII码是()。1.3非数值信息的编码第三部分:80H~0FFH,共128个字符,一般称为“扩充字符”。这些字符是由IBM制定的,并非标准的ASCII码,用来表示框线、音标和其它欧洲非英语系的字母。见表1-

5、6所示。表1-6扩展ASCII码表:80H~FFH2、汉字编码计算机只识别由0、1组成的代码,ASCII码是英文信息处理的标准编码,汉字信息处理也必须有一个统一的标准编码。汉字进入计算机,有许多困难,其原因主要有三点:①数量庞大:现在汉字总数已超过6万个(包括简化字)。有研究者主张规定3000多或4000字作为当代通用汉字,但仍比处理由二三十个字母组成的拼音文字要困难得多。②字形复杂:古体、今体、繁体、简体,而且笔画相差悬殊,少的一笔,多的达36笔,简化后平均为9.8笔。③存在大量一音多字和一字多音的现象:以1万个汉字计算,每个不

6、带调的音节平均超过24个汉字,每个带调音节平均超过7.7个汉字。有的同音同调字多达66个。一字多音现象也很普遍。1.3非数值信息的编码国标码:我国国家标准局于1981年5月颁布了《信息交换用汉字编码字符集——基本集》,代号为GB2312-80,共对6763个汉字和682个图形字符进行了编码。其编码原则为:汉字用两个字节表示,每个字节占用七位码(高位为0),国家标准将汉字和图形符号排列在一个94行94列的二维代码表中,每两个字节分别用两位十进制编码,前字节的编码称为区码,后字节的编码称为位码,此即区位码;如“保”字在二维代码表中处于

7、17区第3位,区位码即为“1703”。1.3非数值信息的编码1.3非数值信息的编码国标码并不等于区位码,它是由区位码稍作转换得到。转换方法为:先将十进制区码和位码转换为十六进制的区码和位码,这样就得了一个与国标码有一个相对位置差的代码,再将这个代码的第一个字节和第二个字节分别加上20H,就得到国标码。如:“保”字的国标码为3123H,它是经过下面的转换得到的:1703D->1103H->+20H->3123H。1.3非数值信息的编码国标码是汉字信息交换的标准编码,但因其前后字节的最高位为0,所以与ASCII码发生了冲突,如“保”

8、字,国标码为31H和23H,而西文字符“1”和“#”的ASCII码也为31H和23H,现假如内存中有两个字节为31H和23H,这到底是一个汉字“保”,还是两个西文字符“1”和“#”?于是就出现了二义性,显然,国标码是不可能在计算机内部直接采用的,于

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。