《信息检索概述》PPT课件

《信息检索概述》PPT课件

ID:38648721

大小:3.65 MB

页数:112页

时间:2019-06-17

《信息检索概述》PPT课件_第1页
《信息检索概述》PPT课件_第2页
《信息检索概述》PPT课件_第3页
《信息检索概述》PPT课件_第4页
《信息检索概述》PPT课件_第5页
资源描述:

《《信息检索概述》PPT课件》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、信息检索信息检索研究室秦兵qinb@ir.hit.edu.cn2007我们所使用的Web搜索系统TheWebWebspiderIndexerIndexesSearchUser我们将学到什么内容?基本内容信息检索概述及评价信息检索模型检索的改进信息过滤Web信息检索高级话题文本分类和聚类问答系统及自动文摘参考书RicardoBaeza-YatesandBerthierRibeiro-Neto,ModernInformationRetrieval,Addison-Wesley.1999.W.B.FrakesandR.Baeza-Yates,Informati

2、onRetrieval:DataStructures&Algorithms,EnglewoodCliffs,NJ:PrenticeHall.1992.ChristopherD.Manning,PrabhakarRaghavanandHinrichSchütze,IntroductiontoInformationRetrieval,CambridgeUniversityPress.2007.李晓明,闫宏飞等。搜索引擎原理,技术与系统信息检索的概述在这一部分我们将了解到:信息检索概念及意义信息检索体系结构历史、现状与困难发展趋势国内外主要搜索引擎信息检索的应

3、用信息检索的概念及意义信息检索定义信息检索:从非结构化的文档集中找出与用户需求相关的信息和其它相关技术的区别和数据库的区别数据库是结构化数据,IR的检索结果也往往是不精确的,而不象数据库查询那样正确率一定是100%。和情报检索的区别情报检索介绍如何利用信息检索工具典型的信息检索任务给定条件自然语言的文档集合用户的提问(Query)查找结果和query相关的经过排序(Rank)的文档子集信息检索任务进一步划分为:信息或数据的检索和浏览拉出(pulling)行为集合中的文献相对静止信息过滤信息过滤的变通方式-路由选择推送(filtering)行为用户查询相对

4、静止用户需求:Query及Profile形式关键词带布尔操作的关键词自由文本事例文档...信息检索样例信息过滤(推送)样例信息检索系统IRSystemQueryStringDocumentcorpusRankedDocuments1.Doc12.Doc23.Doc3..信息检索处理的对象非结构化数据文本数据:新闻、科技论文等网页:HTML、XML多媒体数据:图像、视频、图形、音频目前最主要的处理对象是互联网文字图片基于内容的图像查询基于内容的图像查询:目标,颜色,纹理图像数据库/互联网用户的提问查询搜索引擎基于文本的图像查询信息存在的形式在非结构化信息中

5、,包括文本信息和多媒体信息以文本检索方式为主,例如:目前Google的图片检索技术采用的是利用图片周围的文字信息进行的大多数信息都是文本形式的,没有预先定义的格式(例如:邮件、新闻等)在企业信息化领域,有人统计认为80%的信息是非结构化的在信息管理向知识管理转变的过程中,文本信息非常关键信息检索的重要性由信息匮乏到信息爆炸,需要有效的检索方式传统管理软件需要嵌入IR技术在SQL数据库中已采用文本检索技术select*fromEmployeewhereNamelike’%Lee%’.在LotusNotes办公平台上同样也已采用文本检索技术互联网数据的增长和

6、在线文档(如联机用户手册等)的增长,向IR技术提出迫切需求检索无处不在智能计算:从人机交互到内容管理人机交互解决信息录入和呈现的问题在大量信息进入虚拟世界以后,更重要的问题在于如何对这些信息资源进行有效的管理使用户能够方便快捷地找到想要的信息使信息保值增值产生新知竞争不在于拥有多少信息,而在于能够利用多少有价值的信息,因此内容管理至关重要信息检索系统体系结构信息检索系统的体系结构文本数据库数据库管理建索引索引查询操作搜索排序排序后的文档用户反馈文本操作用户界面检出的文档用户需求文本提问逻辑视图倒排文档分词删除停用词Stemming(提取词干)为文档建立倒

7、排索引表根据倒排索引表检索出与提问相关的文档将检索出的文档根据相关性排序Query输入和文档输出相关反馈结果的可视化对query进行变换,以改进检索结果Web搜索将IR技术应用于WorldWideWeb上的HTML网页和纯文本相比,网页的特点如下:必须通过在网上“爬行”搜集网页可以开发结构布局信息文档的更新是不可控的可以开发网页之间的链接结构Web搜索系统提问IR系统排序后的文本1.第1页2.第2页3.第3页..文档语料库WebSpiderIR的历史与现状IR的历史1960-70’s:最初的信息检索系统面向小型的科学文摘数据库、法律和商业文档检索模型为基

8、本的布尔模型和向量空间模型CornellUniversity的Prof.Salt

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。