欢迎来到天天文库
浏览记录
ID:52484815
大小:1.37 MB
页数:50页
时间:2020-04-08
《信息检索的相关概念.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、现代信息检索MODERNINFORMATIONRETRIEVAL第一章信息检索的相关概念提纲信息检索的基本概念信息检索的历史信息检索和其他学科的关系信息检索的基本流程2提纲信息检索的基本概念信息检索的历史信息检索和其他学科的关系信息检索的基本流程3信息检索的基本概念信息检索产生信息检索简介信息检索概念4信息检索的基本概念信息检索产生信息检索简介信息检索概念5信息过载(INFORMATIONOVERLOAD)全世界每年产生1到2EB(1EB≈1018B)信息,相当于地球上每个人大概产生250MB信息,
2、其中纸质信息仅占所有信息的0.3%(Lyman&Hal03)静态网页有上百亿,动态及隐藏网页至少是静态网页的500倍。TomLandauer认为人的大脑只能存储量,一辈子只能接触6G的信息量。6INTERNET增长(1)7INTERNET增长(2)8全球数字化进程加快1998年,美国前副总统戈尔提出数字化地球的概念。1998年,江泽民总书记提出数字中国战略构想。1999年,北京市市长刘淇提出数字北京概念。全世界启动了数字图书馆、数字博物馆在内的一系列工程,另外包括虚拟博物馆、数字电影、交互电视、会议
3、电视、远程教育、遥感、GPS等在内的服务或应用也产生大量文本和多媒体数据。9问题!一方面,人们可以获得的信息的来源非常广泛。另一方面,人们如何快速、准确、全面地获得自己所需要的信息?非常困难!信息量太大,而且信息冗余度大、质量良莠不齐、格式不一、位置分散、关联复杂、语言繁多用户需求的表达和理解非常困难信息的理解非常困难—自然语言文本、图片、视频1011信息检索是研究如何解决上述问题的一门学科!IR系统用户需求相关结果信息检索的基本概念信息检索产生信息检索简介信息检索概念12信息检索信息检索简介(1)
4、InformationRetrieval这个术语产生于CalvinMooers1948年在MIT的硕士论文。InformationRetrieval(IR):从文档集合中返回满足用户需求的相关信息的过程。作为一门学科,是研究信息的获(acquisition表示(representation)、存(storage)、组织(organization)和访问(access)的一门学问。13信息检索简介(2)信息检索可以看成计算机科学Science)和图书情报学的交叉学科。(Computer(Library
5、&Info.Science)以计算机为手段,处理信息对象和其他学科也融合:语言学、认知科学等检索来自英文单词Retrieval,有些人把它翻译成获取。其本义是“获得与输入要求相匹配的输出”。和我们平时所理解的搜索意义上的检索不一样。14信息检索简介(3)IR不仅仅是搜索,IR系统也不仅仅是搜索引擎。例1:返回与信息检索相关的网页→搜索引擎(SearchEngine,SE)例2:毛主席的生日是哪天?→问答系统(QuestionAnswering,QA)例3:返回联想PC的型号、配置、价格等信息信息抽取
6、(InformationExtraction,IE)例4:订阅有关NBA的新闻信息过滤(InformationFiltering)、信息推荐也可以这样说,狭义的IR通常是指InformationSearch,而广义的IR包含非常多的内容(SE,QA,Search,IE等)。本课程介绍的是广义的IR.信息检索的基本概念信息检索产生信息检索简介信息检索中的基本概念16信息检索中的基本概念—用户需求用户需求(UserNeed,UN):用户需要获得的信息.严格地说,UN只存在于用户的内心,但是通常用文本严格
7、地说,UN只存在于用户的内心,但是通常用文本来描述,如查找与2006世界杯相关的新闻,有时也称为主题(Topic)UN提交给检索系统时称为查询(Query),如2006世界杯,对同一个UN,不同人不同时候可以构造出不同的Query,比如上述需求也可表示成2006世界杯新闻,Query在IR系统中往往还有内部表示17信息检索中的基本概念—文档与文档集文档(Document):检索的对象可以是文本,也可以是图像、视频、语音等多媒体文档,textretrieval/imageretrieval/video
8、retrieval/speechretrieval/multimediaretrieval可以是无格式、半格式、有格式的文档集合(Collection):所有待检索的文档构成的集合也称为Repository,Corpus18信息检索的基本概念—相关度相关(relevant、相关度relevance)相关取决于用户的判断,是一个主观概念不同用户做出的判断很难保证一致.即使是同一用户在不同时期、不同环境下做出的判断也不尽相同19信息检索的基本概念—相关度(续)定义“相关性
此文档下载收益归作者所有