《文本获取与处理》PPT课件.ppt

《文本获取与处理》PPT课件.ppt

ID:52279941

大小:2.91 MB

页数:59页

时间:2020-04-03

《文本获取与处理》PPT课件.ppt_第1页
《文本获取与处理》PPT课件.ppt_第2页
《文本获取与处理》PPT课件.ppt_第3页
《文本获取与处理》PPT课件.ppt_第4页
《文本获取与处理》PPT课件.ppt_第5页
资源描述:

《《文本获取与处理》PPT课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第2章文本获取与处理主讲教师胡永斌2本章主要内容2.1文本的基本知识2.2文本信息的采集方法2.3文本信息处理2.4超文本标记语言2.5文本处理工具软件数据单位计算机存储数据时的最小单位是位(bit),一个bit可以存储一个二进制数。存储数据的基本单位是字节(Byte),简记为B。规定一个字节等于8个位,即1Byte=8bit。一个字节可以保存一个英文字符,一个汉字要占用两个字节。计算机的存储器是以字节为单位,每个字节都有一个地址编码,通过地址找到某个字节来存取数据。由于二进制的原因,存储容量的倍数用"千"表示,"千"等于1024。1KB=1024B;1MB=1024KB;1GB=10

2、24MB;1TB=1024GB。42.1文本的基本知识在计算机中,文字和数值都是用二进制编码表示的,文字信息、数值信息、符号信息统称为文本信息。对于具备中英文处理能力的计算机来说,文本信息则主要由ASCII码表所规定的字符集(包括字母、数字、特殊符号等)和汉字信息交换码所规定的中文字符集中的字符组合而成,习惯上把前者称为西文字符,而把后者称为中文字符。计算机处理文字信息主要包括输入、编辑、存储、输出等。52.1.1西文字符西文字符是指由ASCII码表所规定的字符集,包括字母、数字、特殊符号等。ASCII是英文AmericanStandardCodeforInformationInter

3、change的缩写,意为“美国信息交换标准代码”。1、字符编码(ASCII码):用7位二进制数表示,共能表示27=256个不同的字符,包括了计算机处理信息常用的26个英文大写字母A~Z、26个英文小写字母a~z,数字符号0~9、算术与逻辑运算符号、标点符号等。在计算机中,每一个西文字符均对应一个ASCII码,例如,字母A的ASCII码值为十进制数65,小写字母a的ASCII码为十进制数97。672、字符外观及存储:每一个字符的外形可被绘制在一个MxN的方格矩阵中,如又图(a)所示。在图中,笔画经过的方格有点用1表示,未经过的方格无点用0表示,这样形成的0、1矩阵成为字符点阵。若M=N=

4、8,可依水平方向按从左到右的顺序将0、1代码组成字节信息,每行一个字节,从上到下共形成8个字节,如右图(b)所示。这就是字符外观的点阵编码,用点阵编码存储字符外观。(a)大写字母A的方格矩阵(b)字符点阵及十六进制编码83、字符显示过程将所有字符的点阵编码按照其在ASCII码表中的位置顺序存放,就形成了一个字符点阵库。从ASCII码转换成字符点阵的功能称为字符发生器。通过字符发生器完成字符的显示过程。要显示字符的ASCII码读出点阵字符点阵库按点阵还原出字符外形查找图2-2字符显示过程92.1.2中文字符中文字符(即汉字)是指由汉字信息交换码所规定的中文字符集,全称为“信息交换用汉字编

5、码字符集”,是我国国家标准总局于1981年5月1日颁发的,也称为国标码集,标准名简写为GB2312-80,共收入了6763个汉字,682个数字和图形符号,并规定一个汉字的编码用两个字节表示,称此编码为汉字内码。国标GB18030-2000,收录了27000个汉字。中文字符处理的过程:首先将所有的汉字在给定的方格内绘制出点阵图像,然后按照0、1矩阵形成字节编码,再将所有汉字的点阵字节编码按照其在汉字码表中的位置顺序存放,形成汉字点阵字库。102.1.5文本与超文本文件3种类型的文本文件:1、无格式文本文件只存储文字信息本身,文字以固定大小和风格输出,因而也称为纯文本,,通常保存为.txt

6、类型的文件。2、格式文本文件不仅包含文字信息,还包括文字的字号、颜色、字体以及其他用于规定输出格式的排版信息。编辑这类文件,可设置文本的字体、字号、颜色、字形(正常、加粗、斜体、下划线、上标、下标等)、字间距、行间距和段间距等。格式文本要用功能较强的字处理软件来编辑,如MSWord和金山WPS等。11图2-7格式文本123、超文本文件超文本文件是建立在非线性的超文本概念基础上的,它将文本内容按其内容含义分割成不同的文本块,再按其固有的逻辑关系通过超链接组织成非线性的网状结构,从而提供了一种符合人们思维习惯的联想式阅读方式。纯粹的超文本文图2-8超文本文件的逻辑结构定义件是由超文本标记语

7、言(HTML)和被分割的不同文本块按照HTML规定的格式要求组成的。13图2-9(a)超文本文件实例(b)浏览效果用超文本描述语言定义的超文本文件需要用相应的浏览器浏览才能按照其非线性组织方式阅读内容。图2-9给出了一个具体的超文本文件实例和浏览效果。当超文本文件中的内容不仅包含文本块,而且还包含图片、声音、视频、动画等多种媒体信息,且通过超级链接实现各种媒体信息的组合使用时,这种超文本文件就又被称为超媒体或超媒体文件。14表2-2常用文本文件

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。