《文本与文本处》ppt课件

《文本与文本处》ppt课件

ID:26943475

大小:348.51 KB

页数:13页

时间:2018-11-30

上传者:U-5734
《文本与文本处》ppt课件_第1页
《文本与文本处》ppt课件_第2页
《文本与文本处》ppt课件_第3页
《文本与文本处》ppt课件_第4页
《文本与文本处》ppt课件_第5页
资源描述:

《《文本与文本处》ppt课件》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

第5章数字媒体及应用江苏科技大学张家港校区教学课件 文字符号在计算机中的表示(P13)日常使用的书面文字由一系列称为“字符”(character)的书写符号所构成计算机中常用字符的集合叫做“字符集”西文字符集中文(汉字)字符集(参见第5章)最常用的西文字符集是ASCII(AmericanStandardCodeforInformationInterchange)字符集包含96个可打印字符和32个控制字符每个字符采用7个二进位进行编码计算机中使用1个字节存储1个ASCII字符7/8/20212 标准ASCII字符集及其代码表b6b5b4b3b2b1b0012345670123456789ABCDEFb6b5b4b3b2b1b0011010011010117/8/20213 字符、字符集及其编码表文字的基本元素是字母和符号,统称为“字符”(character),它包括:字母、数字、标点、符号等字符集:一组特定字符的集合不同的字符集包含的字符数目与内容不同,如:中文字符集、西文字符集、日文字符集等字符的编码:字符集中每个字符的二进位表示,称为该字符的编码或代码(code)不同的字符其编码各不相同字符集中所有字符编码一览表,称为该字符集的码表7/8/20214 补充:西文字符的编码——ASCII码目前计算机中用得最广泛的字符集及其编码,是由美国国家标准局(ANSI)制定的ASCII码(AmericanStandardCodeforInformationInterchange,美国标准信息交换码),它已被国际标准化组织(ISO)定为国际标准,称为ISO标准。适用于所有拉丁文字字母,ASCII码有7位码和8位码两种形式。7/8/20215 复习:西文字符的编码——ASCII码西文是表音文字(拼音文字),它由拉丁字母、数字、标点符号以及一些特殊符号所组成美国标准信息交换码(ASCII码):ASCII字符集包含96个可打印字符和32个控制字符采用7个二进位进行编码计算机中使用1个字节存储1个ASCII字符存在问题:字符集太小(只有128个字符)不同国家和地区使用不同的字符集及其编码,互不兼容东亚地区使用的大字符集无法编码0XXXXXXX7/8/20216 汉字如何编码?汉字是记录汉语(国语,华语)的文字,属于表意文字,它用符号直接表达词或词素,有多个国家和地区使用(中、日、韩、新、马······)汉字的特点数量大;字形复杂,同音字多,异体字多7/8/20217 常用的汉字编码字符集国家标准GB2312-1981汉字扩充规范GBK国家标准GB18030-2005台湾地区的标准汉字字符集CNS11643(Big5,俗称“大五码”)国际标准化组织ISO制定的UCS/Unicode多文种大字符集7/8/20218 一级汉字(3755个)二级汉字(3008个)(扩充使用)字母、数字和各种符号………………19423位号…………191655568794区号(按汉语拼音排列)(按偏旁部首排列)GB2312汉字编码字符集1980年颁布《信息交换用汉字编码字符集·基本集》——GB2312-1980GB2312字符集由三个部分构成:拉丁字母、俄文、日文平假名与片假名、希腊字母、汉语拼音等共682个共6763个汉字和682个符号,每个汉字和符号都有一个确定位置7/8/20219 GB2312汉字的编码每一个GB2312汉字使用16位(2个字节)表示为了与ASCII字符相区别,每个字节的最高位均为“1”(GB2312汉字的“机内码”又称“内码”)例如:“南”字的代码是1100010011001111(用十六进制表示为C4CF)11第1字节第2字节XXXXXXXXXXXXXX7/8/202110 GBK汉字内码扩充规范GB2312的不足:汉字字数太少,缺少繁体字,无法满足人名、地名、古籍整理、古典文献研究等应用的需要;GBK汉字内码扩充规范(1995):在GB2312基础上,增加了1万多汉字(包括繁体字)和符号共有21003个汉字和883个图形符号,如“計算機”、冃、冄、円、冇等繁体字和生僻字与GB8312保持向下兼容,也使用双字节表示,第1字节最高位必须为“1”:1X第1字节第2字节XXXXXXXxXXXXXXX7/8/202111 UCS/Unicode多文种大字符集背景:为了实现全球数以千计的不同语言文字的统一编码方案:ISO将全球所有文字字母和符号集中在一个字符集中进行统一编码称为UCS/Unicode7/8/202112 标准名称GB2312GBKGB18030UCS-2(Unicode)字符集6763个汉字(简体字)21003个汉字(包括GB2312汉字在内)近3万汉字(包括GBK汉字和CJK及其扩充中的汉字)包含10万多字符,其中的汉字与GB18030相同编码方法双字节存储和表示,每个字节的最高位均为“1”双字节存储和表示,第1个字节的最高位必为“1”部分双字节、部分4字节表示,双字节表示方案与GBK相同UTF-8采用单字节可变长编码UTF-16采用双字节可变长编码兼容性编码不兼容!小结:几种汉字编码的对比编码保持向下兼容7/8/202113

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
关闭