计算机学科导论第3章.ppt

计算机学科导论第3章.ppt

ID:52395306

大小:5.75 MB

页数:37页

时间:2020-04-05

计算机学科导论第3章.ppt_第1页
计算机学科导论第3章.ppt_第2页
计算机学科导论第3章.ppt_第3页
计算机学科导论第3章.ppt_第4页
计算机学科导论第3章.ppt_第5页
资源描述:

《计算机学科导论第3章.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、信息检索原理与应用1信息检索的基本概念信息检索的历史搜索引擎的基本原理常见的搜索引擎2WebisNothingwithoutSearch信息检索原理与应用3信息过载(Informationoverload)“…全世界每年产生1到2EB(1EB=1024PB,1PB=1024TB)信息,相当于地球上每个人大概产生250MB信息。其中纸质信息仅占所有信息的0.03%...”TomLandauer认为人的大脑只能存储200M信息量,一辈子只能接触6G的信息量。“人类目前至少生产了40亿网页,而人类有史以来上万年产生了大约1亿本书;中国网上大约有3亿网页,

2、而中华民族有史以来出版的书籍大约不超过275万种”(2004年)。静态网页有上百亿,动态及隐藏网页至少是静态网页的500倍。信息检索的基本概念信息检索原理与应用42000-2008年中国网站规模变化信息检索的基本概念信息检索原理与应用52002-2008年中国网页规模变化信息检索的基本概念信息检索原理与应用6全球数字化进程加快1998年,美国前副总统戈尔提出数字化地球的概念。1998年,江泽民总书记提出数字中国战略构想。全世界启动了数字图书馆、数字博物馆在内的一系列工程,另外包括虚拟博物馆、数字电影、交互电视、会议电视、远程教育、遥感、GPS等在内

3、的服务或应用也产生大量文本和多媒体数据。信息检索的基本概念信息检索原理与应用7一方面,人们可以获得的信息的来源非常广泛。另一方面,人们如何快速、准确、全面地获得自己所需要的信息?信息量太大,而且信息冗余度大、质量良莠不齐、格式不一、位置分散、关联复杂、语言繁多用户需求的表达和理解非常困难信息的理解非常困难—自然语言文本、图片、视频信息检索的基本概念信息检索原理与应用8信息检索是研究如何解决上述问题的一门学科!InformationRetrieval这个术语产生于CalvinMooers1948年在MIT的硕士论文。信息检索(InformationR

4、etrieval,IR)从文档集合中返回满足用户需求的相关信息的过程。是研究信息的获取(acquisition)、表示(representation)、存储(storage)、组织(organization)和访问(access)的一门学问。信息检索的基本概念信息检索原理与应用9信息检索可以看成计算机科学和图书情报学的交叉学科。以计算机为手段,处理信息对象和其他学科也融合:语言学、认知科学、……检索来自英文单词Retrieval,有些人把它翻译成获取。其本义是“获得与输入要求相匹配的输出”,和我们平时所理解的搜索意义上的检索不一样。Retrieva

5、l≠Search信息检索的基本概念信息检索原理与应用10信息检索v.s.搜索引擎例1:返回与信息检索相关的网页搜索引擎(SearchEngine,SE)例2:毛主席的生日是哪天?问答系统(QuestionAnswering,QA)例3:返回联想PC的型号、配置、价格等信息信息抽取(InformationExtraction,IE)例4:订阅有关NBA的新闻信息推荐(InformationRecommending)狭义的IR通常是指InformationSearch,而广义的IR包含非常多的内容(SE,QA,IE,…)。信息检索的基本概念信息检索原理

6、与应用11基本概念——用户需求(UserNeed)用户需要获得的信息严格地说,用户需求只存在于用户的内心,但是通常用文本来描述,如查找与NBA相关的新闻,有时也称为主题(Topic)用户需求提交给检索系统时称为查询(Query),如“NBA”,对同一个用户需求,不同人不同时候可以构造出不同的Query,比如上述需求也可表示成“NBA新闻”、“NBA赛况”等,Query在IR系统中往往还有内部表示信息检索的基本概念信息检索原理与应用12基本概念——文档集(Collection)所有待检索的文档构成的集合文档(Document):检索的对象可以是文本,

7、也可以是图像、视频、语音等多媒体文档可以是无格式、半格式、有格式的信息检索的基本概念信息检索原理与应用13基本概念——相关度(relevance)检索的到的文档满足用户查询需求的程度。相关取决于用户的判断,是一个主观概念不同用户做出的判断很难保证一致即使是同一用户在不同时期、不同环境下做出的判断也不尽相同相关度通常只有相对意义,对一个查询,不同文档的相关度可以比较,而对于不同的查询的相关度不便比较信息检索的基本概念信息检索原理与应用14信息检索和数据库检索信息检索的基本概念信息检索数据库检索检索对象无结构、半结构数据如网页、图片……结构化数据如:员

8、工数据库检索方式通常是近似检索如:每个结果有相关度得分通常是精确检索如:姓名==“李明”检索语言主要是自然语言如:NBAS

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。