第四章 文本信息检索技术与方法ppt课件.ppt

第四章 文本信息检索技术与方法ppt课件.ppt

ID:58671838

大小:732.50 KB

页数:84页

时间:2020-10-05

第四章 文本信息检索技术与方法ppt课件.ppt_第1页
第四章 文本信息检索技术与方法ppt课件.ppt_第2页
第四章 文本信息检索技术与方法ppt课件.ppt_第3页
第四章 文本信息检索技术与方法ppt课件.ppt_第4页
第四章 文本信息检索技术与方法ppt课件.ppt_第5页
资源描述:

《第四章 文本信息检索技术与方法ppt课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第四章文本信息检索技术与方法4.0文本信息概述文本:是基于一定的语言符号系统而形成的一个有限符号序列。人工语言文本:人为设计自然语言文本:人类使用过程中齐普夫定律(书82)Heaps分布模型(书83)文本文件:是由若干行字符构成的计算机文件,存在于计算机文件系统中。主要的文本文件格式:TXT格式(扩展名为.txt)DOC格式(扩展名为.doc)WPS格式(扩展名为.wps)RTF格式(扩展名为.rtf)PDF格式(扩展名为.pdf)字符集与编码标准字符集及其编码标准是计算机输入、处理和显示各种字符的技术基础字符(Character)是文字与符号的

2、总称,包括文字、图形符号、数学符号等。一组抽象字符的集合就是字符集(Charset)。字符集常常和一种具体的语言文字对应起来,该文字中的所有字符或者大部分常用字符就构成了该文字的字符集,比如英文字符集。在计算机中,所有的数据在存储和运算时都要使用二进制数表示,计算机要处理各种字符,就需要将字符和二进制内码对应起来,这种对应关系就是字符编码(Encoding)。ASCII码、UCS、Unicode、GB23124.1文本信息预处理思考:为什么进行预处理?预处理包括:文本词汇分析停用词去除词干提取名词(或名词性短语)识别4.2.1文本词汇分析文本词汇

3、分析主要是对文档中的文本(字符)进行识别或转换成词的过程,这些词可以作为标引词。通常这一步的分析处理称作分词或断词思考:用户输入的查询是否需要分词?英文的分词标记化,是将给定的字符序列拆分成一系列子序列的过程,其中每个子序列称为符号单元(token),该过程称为标记化(tokenization)。IR中,研究最多的是以词为单位对文本进行划分,称为断词(wordtokenization),简称tokenization。在断词过程中,可能会同时除去一些特殊符号,比如,标点符号。举例Ihaveadream.(I)(have)(a)(dream)英文断词

4、时需要考虑的情况(1)句点:是英文中最常引起歧义的符号,也是最难处理的符号。表示句子的结尾缩写的一部分小数点举例:TheexperimentsledbyDr.Alanachievedaprecisionof90.7%.HewasborninU.S.英文断词时需要考虑的情况(2)撇号:主要用于构成英文的动词缩写式和名词所有格。动词缩写式,I'm,won't,don't等等;歧义:he's:heis,hewas,hehas;he'd:hewould,hehad;名词所有格,Thecat's,children's,parents‘年份的复数thelat

5、e1950's英文断词时需要考虑的情况(3)连字符:主要用处是标志合成词以及用在排版工序。构成合成词已经固定成词的情况E-mail,co-operate根据特定语法或语言环境生成的词Four-year;SteveJobs,1955-2011;All-In-One用在排版上英文的大小写转换英文句首的单词第一个字母大写,这可能导致一些单词不能正确的匹配。比如查询“automobile”和句首的“Automobile”一个一般的策略是将所有字母转换成小写。但也会导致一些例外:比如:“China”和“china”全部转换成小写可能导致那些本应区分的词语同

6、化。由于用户查询往往忽略大小写,而使用小写,因此,所有字母转换成小写有助于用户的查询。中文的分词中文IR系统有两种主要检索方案基于字的检索,按照字建立索引,需要在检索时进行逻辑运算。基于词的检索,按照词建立索引,检索时直接命中。优点:检索速度快、准确率高。中文分词(ChineseWordSegmentation):中文文本中词与词之间没有空格,为了获取词语信息,需要对词语进行自动的词语切分。李明是一名优秀的学生。李明_是_一名_优秀_的_学生_。中文分词面临的首要问题是如何定义一个词。举例:自然语言处理1)自然_语言_处理2)自然语言_处理中文词

7、的定义没有统一的标准,语言学家从不同的角度对词进行定义。汉语书写过程中并不分词连写,对词组和词、单字语素和单字词的划分因人而异,甚至因时而异;汉语信息处理现在需要制订统一的分词标准,否则将严重影响计算机的处理;《信息处理用现代汉语分词规范及自动分词方法》对词的定义:结合紧密、使用频繁。分词算法的主要困难是歧义消除和未登录词识别切分歧义的消除交集型歧义(交叉歧义):“组合成”我们/小组/合成/氢气了;组合/成/分子;组合型歧义(覆盖歧义):“马上”他/从/马/上/下/来;我/马上/就/来/了;“学生会组织义演活动”:“学生/会/组织/义演/活动”o

8、r“学生会/组织/义演/活动”?分词算法的主要困难是歧义消除和未登录词识别未登录词识别命名实体:数词、人名、地名、机构名、译名、时间、货

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。