信息检索的基本概念

信息检索的基本概念

ID:9886830

大小:94.00 KB

页数:17页

时间:2018-05-13

信息检索的基本概念_第1页
信息检索的基本概念_第2页
信息检索的基本概念_第3页
信息检索的基本概念_第4页
信息检索的基本概念_第5页
资源描述:

《信息检索的基本概念》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、一、信息检索的概念和类型穆尔斯(CalvinN.Mooers,1919~1994)在1948年提出此术语时,把它定义为一种“延时性通讯形式”。其特点是:发信者在某一时刻发出信息,而接收者可以在晚一些时刻才收到该信息;发信者必须发出一切可能的信息,而接受者必须有某种检索装置以便从大量发送的信息中筛选出适合自己需要的信息。(一)信息检索的概念信息检索是信息正式交流方式中的一种1、定义:信息检索(InformationRetrieval)——广义上说,信息检索是指将信息按照一定的方式组织和存储起来,并能根据信息用户的需要找出其中相关信息的过程。从本质上讲,信息

2、检索是一种有目的和组织化的信息存取活动,其中包括“存”和“取”两个基本环节。对于“存”来说,主要指面向来自各种渠道的大量信息资源而进行的高度组织化的存储;对于“取”来说,则要求面向随机出现的各种用户信息需求所进行的高度选择性的查找,并且尤其强调查找的快速与便利。信息检索的全称是信息存储与检索(informationstorageandretrieval),包含两个方面,存储的过程是信息的组织加工和记录的过程,即建立检索系统(编制检索工具)的过程——输入的过程;检索的过程是按一定方法从检索系统(检索工具)中查出信息用户需要的特定信息的过程——输出的过程。二

3、者是相辅相成的,存储是为了检索,而检索又必须先进行存储。只有经过组织的有序信息集合才能提供检索,因此了解了一个信息系统(检索工具)的组织方式也就找到了检索该检索系统(检索工具)的根本方法。当然,对信息用户而言,后者更为重要,因此,狭义的信息检索一般仅指检索的过程。检索的本质是信息用户的需求和信息集合的比较与选择,即匹配(match)的过程。从用户需求出发,对一定的信息集合(系统)采用一定的技术手段,根据一定的线索与准则找出(命中)(locate,bit)相关信息的过程,就是检索。2、信息检索的基本原理与检索处理流程分析*基本原理可以把信息检索的基本原理抽

4、象概括为一句话:对信息集合与需求集合的匹配与选择。首先是信息集合,信息集合是指有关某一领域的、经采集和加工的信息集合体,是一种公共知识结构。它可以向用户提供所需要的知识或信息。其次是需求集合,用户的信息需求是在社会实践活动中产生的,众多用户不同形态的信息需求的汇集,就形成了需求集合。为了在信息集合与需求集合之间建立起联系和沟通,以便能从信息集合中快速获取用户所需要的信息和知识,信息检索提供了一种“匹配”机制,这种机制的主要功能在于能快速把需求集合与信息集合依据某种相似性标准进行比较和判断,进而选择出符合用户需要的信息。这里,匹配的相似性标准一般是通过把信

5、息集合和需求集合预先进行某种形式化的加工和表示来提供的。对于文本而言,最主要、最常用的匹配标准是由某个或若干个词汇表达的“主题”。信息采集信息标引处理(特征提取与表示)创建/更新数据库及索引文档数据库及索引文档检索匹配提问处理检索接口用户检索辅助工具信息源检索处理流程分析(215)信息检索处理过程流程图上图是一个基于计算机环境的信息检索处理过程图。在图中以中间的直线为界,信息检索处理过程被分解为“信息存储”与“信息查询”两个部分。其中“信息存储”部分包括“信息采集”、“信息标引处理”、“创建/更新数据库及索引文档”等多个处理模块;并最终以数据库的形式完成

6、了信息的收集、加工(标引)和存储任务;而“信息查询”部分则通过“检索接口”、“提问处理”和“检索匹配”等一系列功能模块的配合,以人机对话方式完成用户对系统的访问和信息查询功能。l信息需求的处理与加工。即采用特定的检索语言将信息需求表示出来,换言之,将检索问题或课题进行处理,抽取出主题内容或其他特征。经过这样处理的信息需求称之为Query。l信息集合是指有关某一领域的文献或数据的集合。复杂性、序化、Accesspoint。每件信息都包含有其内部和外部的特征即信息的属性,这些特征可以用来作为检索的出发点和匹配的依据。我们称之为检索点。·匹配与选择是一种机制,

7、它负责把需求集合与信息集合进行相似性比较,然后根据一定的标准选出符合需要的信息。采用布尔模型,一个文档通过一个关键词条的集合来表示,这些词条来自一个词典。在查询与文档的匹配过程中,主要看该文档中的词条是否满足查询的条件。采用向量模型,计量文档向量与查询词串之间的相似度。采用概率论模型,将文档按照与查询的概率相关性的大小进行排序,排在最前面的文档是最有可能被获取的文档。此外,还可以采用神经网络模型、基于命题逻辑模型、聚类模型、基于规则模型、模糊模型和语义模型等,来深入研究查询与文档之间的匹配过程。塞缪尔·约翰逊(SamuelJohnson)认为:知识分成两

8、类:一类是我们要掌握的学科知识;另一类是要知道在哪儿可以找到有关知识的信息。Kn

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。