欢迎来到天天文库
浏览记录
ID:61954810
大小:3.52 MB
页数:91页
时间:2021-04-01
《汉字编码字符集.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第二章汉字代码体系苏州大学中文信息处理公开课内容提要ASCII码及其扩展中文信息在计算机内的表示ISO/IEC2022汉字编码字符集GB2312-80BIG-5Unicode和ISO10646GBK和GB180301.1ASCII码及其扩展ASCII码扩展ASCIICJK-Roman1.1.1ASCII码1.1.1ASCII码ASCIIAmericanStandardCodeforInformationInterchange表示英文、数字及其常用符号和现有的英文键盘相对应1991年ISO定义为ISO/IEC646:1991
2、信息交换用7-位编码字符集(ISO7-bitcodedcharactersetforinformationinterchange)1.1.2ASCII码内容7位二进制数,定义128个字符:94个图形字符(可显示字符)‘0’-’9’:30H-39H‘A’-’Z’:41H-5AH‘a’-’z’:61H-7AH30个控制字符00-19H1个空格字符20H1个Del(删除)符7FH1.1.3ASCII码-布局控制符控制符控制符1.2扩展ASCII8位表示扩展128256扩展的字符集有16个定义:从ISO8859-1到ISO8859
3、-16,分别定义了相应国家的文字和符号。1.2.1ISO8859内容ISO8859第1至第16部分(InformationProcessing—8BitSingle-ByteCodedGraphicCharacterSet)。定义新增的128个码元。每个部分分别定义ASCII码和其扩展的字符集(针对不同拉丁语言)。1.2.2ISO8859代码空间图1.2.3ISO/IEC8859举例ISO/IEC8859-1(Latin-1)-西欧语言ISO/IEC8859-2(Latin-2)-中欧语言ISO/IEC8859-3(Lat
4、in-3)-南欧语言。世界语也可用此字符集显示。ISO/IEC8859-4(Latin-4)-北欧语言ISO/IEC8859-5(Cyrillic)-斯拉夫语言ISO/IEC8859-6(Arabic)-阿拉伯语ISO/IEC8859-7(Greek)-希腊语ISO/IEC8859-8(Hebrew)-希伯来语(视觉顺序)ISO8859-8-I-希伯来语(逻辑顺序)ISO/IEC8859-9(Latin-5或Turkish)-它把Latin-1的冰岛语字母换走,加入土耳其语字母。ISO/IEC8859-10(Latin-6
5、或Nordic)-北日耳曼语支,用来代替Latin-4。ISO/IEC8859-11(Thai)-泰语,从泰国的TIS620标准字集演化而来。ISO/IEC8859-13(Latin-7或BalticRim)-波罗的语族ISO/IEC8859-14(Latin-8或Celtic)-凯尔特语族ISO/IEC8859-15(Latin-9)-西欧语言,加入Latin-1欠缺的芬兰语字母和大写法语重音字母,以及欧元(€)符号。ISO/IEC8859-16(Latin-10)-东南欧语言。主要供罗马尼亚语使用,并加入欧元符号。1.
6、3CJK-RomanASCII码一样,7位二进制数编码。收录字符基本与ASCII码一样,个别字符作了调整。符合本国使用需要货币单位($(美国)-----¥(中国))中、日、韩字符编码标准:GB-Roman(中国ASCII码字符集ASCII字符编码标准,代号为GB1988-89);CNS-Roman(台湾ASCII码标准,代号为CNS5205-1989);JIS-Roman(日本ASCII码标准,代号为JISX0201-1997);KS-Roman(韩国ASCII码标准,代号为KSX1003:1993)。CJK-Roman-
7、特殊字符码元值ASCII码GB-RomanCNS-RomanJIS-RomanKS-Roman0x24$(美圆)¥(人民币)$$$0x5C(反斜杠)(反斜杠)(反斜杠)¥(日圆)₩(韩圆)0x7E~(波浪线)—(顶线)—(顶线)—(顶线)—(顶线)内容ASCII码及其扩展中文信息在计算机内的表示ISO/IEC2022汉字编码字符集GB2312-80BIG-5Unicode和ISO10646GBK和GB180302.1概述最早在计算机内表示中文信息:IBM、富士通、日立等计算机生产厂家。采用的编码形式互不兼容。为了通用
8、性,ISO、IEEE以及各个使用汉字的国家和地区,都制定了各种各样的汉字编码字符集。汉字代码:汉字在计算机内表示。通过扩充ASCII码编码长度实现ASCII码(扩展)最多256个码位汉字数量成千上万如何放?2.1.1汉字代码汉字代码是真实世界的汉字信息在计算机系统中的最基本表示。根据在计算机内部使用的目
此文档下载收益归作者所有