信息检索技术 第一章 绪论

信息检索技术 第一章 绪论

ID:33926427

大小:659.08 KB

页数:41页

时间:2019-03-01

信息检索技术 第一章 绪论_第1页
信息检索技术 第一章 绪论_第2页
信息检索技术 第一章 绪论_第3页
信息检索技术 第一章 绪论_第4页
信息检索技术 第一章 绪论_第5页
资源描述:

《信息检索技术 第一章 绪论》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第一章绪论李茂西jxnuir@gmail.com信息检索的概念和处理对象•概念概括地说,信息检索就是从非结构化的信息集合中找出与用户需求相关的信息。相应的,信息检索系统就是用来实现信息检索功能的计算机软件系统。•处理对象非结构化信息:没有明显清晰地语义结构。现实实界中世界中存在着大量的非结构化信,除信息,除文本外,还有图像、图形、语音、视频等多媒体信息。2011/11/13江西师范大学计算机信息工程学院信息检索系统的分类•按照处理数据的规模以Web搜索为代表的大规模级别Google,Baidu,Yahoo等小规模的信息检索系统操作系

2、统提供的检索邮件系统提供的检索等中等规模的信息检索系统面向企业、机构和特定领域的搜索2011/11/13江西师范大学计算机信息工程学院信息检索的基本流程•数据采集:检索系统的真实做法是先进行信息采集,把信息源的信息拷贝到本地,构成待检索的信息集合。•数据预处理:对网上信息要进行必要的编码方式的转换或文档格式的转换等。同时,网上存在大量的垃圾页面,需要清理,网页内还会有导航条、广告等与内容无关的信息,也需要通过网页分析去除之,方便后续处理。•信息加工:信息加工最主要的任务就是对采集到本地的信息编排索引,以便做好被查询的准备•用户检索:在信息采

3、集与加工之后,就可以进入到用户能够参与到的检索过程中了。用户输入查询式,可能是几个关键词的逻辑组合,可能是自然语言的问句•相关反馈:信息检索系统接收该查询,转换为查询的机内表示形式,然后在索引表中快速搜索,找到与用户的需求最匹配的若干文档,按照一定准则排序,将一部分结果返回给用户,请用户对系统返回的检索结果进行浏览2011/11/13江西师范大学计算机信息工程学院文档在计算机中的表示•一个字符串中找出子字符串:线性扫描C/C++:Find函数Perl,Python:=~正则表达式Java:Unix:grep•信息检索系统大规模文档集下快

4、速查找更加灵活的匹配方式需要对结果进行排序2011/11/13江西师范大学计算机信息工程学院词项-文档关联矩阵词项-文档关联矩阵,其中每行表示一个词,每列表示一个莎士比亚全集的一个剧本,当词t在剧本中存在时,矩阵(t,d)的值为1,否则为02011/11/13江西师范大学计算机信息工程学院词项-文档关联矩阵•词项:是索引的单位。通常可以把词项当成词但词项不一定是词,如HongKong,I-9等•本书:关联矩阵中行表示文档,列表示词项。2011/11/13江西师范大学计算机信息工程学院词项-文档关联矩阵的缺点•假设文档集包含N=1,000,

5、000篇文档,每篇文档包含约1,000个词,每个词的平均长度是6Byte,整个文档集的大小是6GB。•这些文档大概包含M=500000M=500,000个不同的词项,那么这个词项-文档关联矩阵大约占多大的空间?2011/11/13江西师范大学计算机信息工程学院•词项-文档关联矩阵系数矩阵,很多元素为0存储空间要求极大2011/11/13江西师范大学计算机信息工程学院倒排索引•倒排索引•左边称为词项词典,右边称为倒排记录表;词典往往放在内存中,而指针指向的倒排记录表则往往存放在磁盘上。2011/11/13江西师范大学计算机信息工程学院信息检索面

6、临的问题•处理海量数据量,为处理算法和相关硬件带来挑战。Web页面:1998初,3.2亿1999初,8亿2000年中旬,21亿每天7000万,每8个月翻一番•评价检索用户评价的主观性•处理多源信息信息载体的信息化2011/11/13江西师范大学计算机信息工程学院相关学科•基础数学概率论和数理统计矩阵分析模式识别,模式分类数据挖掘自然语言处理分布式计算•类似学科:数据库2011/11/13江西师范大学计算机信息工程学院相关学科:自然语言处理•自然语言处理(NLP)是人工智能和语言学等多领域交叉的学科。应用领域机器翻译,

7、信息检索,自动问答系统,相关企业GlYGoogle,Yahh!oo!,MiMifcrosoftt,……Baidu,Sohu,Sina,人民搜索,…...2011/11/13江西师范大学计算机信息工程学院信息检索中的基础研究•信息检索理论与形式模型•信息检索系统的体系结构•内容表示•信息检索评价方法和评测数据•文本数据挖掘2011/11/13江西师范大学计算机信息工程学院信息检索中的关键技术•信息抽取•文本分类与聚类•自动文摘•链接分析•分布式信息检索•Web信息检索2011/11/13江西师范大学计算机信息工程学院信息检索中的应用研究•

8、话题检测与跟踪•信息过滤、垃圾邮件过滤•对抗式信息检索(adversarialIR)•企业搜索•数字图书馆•跨语言检索、多语言检索、为检

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。