信息检索技术 第四章 文本操作技术 (1)

信息检索技术 第四章 文本操作技术 (1)

ID:34165160

大小:326.45 KB

页数:31页

时间:2019-03-03

信息检索技术 第四章 文本操作技术 (1)_第1页
信息检索技术 第四章 文本操作技术 (1)_第2页
信息检索技术 第四章 文本操作技术 (1)_第3页
信息检索技术 第四章 文本操作技术 (1)_第4页
信息检索技术 第四章 文本操作技术 (1)_第5页
资源描述:

《信息检索技术 第四章 文本操作技术 (1)》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第四章文本操作技术回顾信息检索的基本概念信息检索的理论模型信息检索系统的布尔逻辑模型主要理论知识向量空间模型隐性语义索引模型概率模型基于语言模型的信息检索模型信息检索系统的评价评价方法常的试集常用的测试集2011/11/132信息检索系统的关键实践技术文本的预处理英文文本的预处理中文文本的预处理文本的索引和搜索索引的构建技术索引的压缩技术文本搜索技术查询处理技术2011/11/133信息检索中文本操作的处理流程文档分析及编码转换确定词项集合断词(词条化,tokenization)英文的词法分析中文的分词英文大小写转换去除

2、停用词词干提取2011/11/1341文档分析和编码转换作为索引构建过程的输入,数字文档有多种形式按照文件后缀名:doc,pdf,ppt,html,xml,txt…按照字符编码:ANSI,BIG5,Unicode,UTF-8…处理步骤文档单位的选择将各种格式的文件转换成纯文本文件编码转换,统一转换为ANSI、UTF-8或UidUnicode。2011/11/135111.1文档单位的选择确定索引的文档单位不同的IR系统用户要求不同的返回结果图书检索系统,返回整本书邮件检索系统,返回某个邮件(包含附件)论坛搜索,返回某个主题下所有用户的回复图片

3、搜索,音乐搜索,返回相关音乐或图片Web检索,返回相关网页这实际上是“索引粒度”的选择2011/11/136121.2转换成纯文本文件不同的文件转换成纯文本需要不同的技术自动输入转换不一定可逆手动转换转换可能丢失信息自动转换不一定可行Word文档转换成纯文本二进制文件转换成纯文本文件pdf文档转换成纯文本图片保存格式,OCR文字保存格式,相关转换软件2011/11/137131.3编码的统一化纯文本文件存在多种不同的编码格式:ANSI,一个字节保存字母,两个字节保存汉字汉字gb2312日文jis传统Unicode编码,两个字节保存一个汉字

4、UTF-8,变长字节保存字母或汉字英文字母一个字节中文汉字用2到3个字节字符编码之间的转换不一定可逆且有时会丢失信息。2011/11/1382英语处理中涉及的问题英文的断词大小写的转化去除停用词词干提取2011/11/139212.1英语的断词标记化,是将给定的字符序列拆分成一系列子序列的过程,其中每个子序列称为符号单元(token),该过程称为标记化,tokiikenization。IR中,研究最多的是以词为单位对文本进行划分,称为断词(wordtokenization),简称tokenization。在断词过程中,可能会同时除去一些特殊符号,比如,

5、标点符号。举例Ihaveadream.(I)(have)(a)(dream)(I)(have)(a)(dream)2011/11/1310断词对IR的影响比如”’”Sh”,ShaquillillOeO'NealO'NealwasborninNewark,NewJersey.断词:“oneal”,“o'neal”,“o'  neal”,“oneal”Query:nealANDnewarkQuery:nealANDnewark,o'nealANDnewark查询和文本集合的断词方法要一致。2011/11/1311英文断词时需要考虑的情况1.句点:是英文中最长引起歧义的

6、符号,也是最难处理的符号。表示句子的结尾,缩写的一部分,小数点,举例:TheexperimentsledbyDr.Alanachievedaprecisionof90.7%.HewasborninU.S.2011/11/1312通过启发式规则的方法对句点消岐,通过机器学习的方法对句点消岐2011/11/1313英文断词时需要考虑的情况2.撇号:主要用于构成英文的动词缩写式和名词所有格。动词缩写式,I'm,won't,don't等等;歧义:he's:heis,hewas,hehas;he'd:hewould,hehad;d:hewould,hehad;名

7、词所有格,ThecatThecat'schildrens,children'sparentss,parents'年份的复数thlt1950'thelate1950's2011/11/1314撇号分隔方法Brown将撇号独立作为一个符号I'm:I‘mPenn树库将组合的两个成分分开I'm:I‘m2011/11/1315英文断词时需要考虑的情况3.连字符:主要用处是标志合成词以及用在排版工序。构成合成词,已经固定成词的情况E-mail,co-operate根据特定语法或语言环境生成的词Four-year;SteveJobs,1

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。