信息检索理论与方法

信息检索理论与方法

ID:6597749

大小:118.00 KB

页数:14页

时间:2018-01-19

信息检索理论与方法_第1页
信息检索理论与方法_第2页
信息检索理论与方法_第3页
信息检索理论与方法_第4页
信息检索理论与方法_第5页
资源描述:

《信息检索理论与方法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、信息检索信息检索:理论与方法第一部分信息检索理论一.掌握和熟悉1.信息检索的基本原理:即对信息集合与需求集合的匹配与选择。*2.信息检索常用技术:*·布尔检索:逻辑与:如,A*B,表明一篇文献中A和B必须同时存在。例:郭沫若*语言学(同时满足两个条件)逻辑或:如,A+B,表明文献中A或B必须存在,包含同时存在。逻辑非:如,A-B,表明一篇文献中包含A但不包含B。例:郭沫若;除去语言学(对某一个检索要求进行限制)逻辑“或”提高查全率,逻辑“与”和“非”提高查准率。·截词检索:后截断:computer*,可检索出:computeracy,computerise,

2、computers前截断:*computer,可检索出:microcomputer,minicomputer中截断:organi?ation,可检索出:organisation,organization前后截断:*computer*·限制检索:为缩小命中文献的数量,将检索范围限定在某个字段或范围中。·全文位置检索:可以反映出两个检索词在文献中的邻近关系。常用在全文检索中,弥补布尔检索的不足。·加权检索:·多媒体检索:基于内容的检索是指根据媒体对象的内容及上下文联系,在大规模多媒体数据库中进行检索。它的目标是提供在没有人类参与的情况下能自动识别或理解声音、图象

3、、视频重要特征的算法。·超文本检索:超文本是一种信息的组织方法。3.信息检索当代技术:*•并行检索:两个或两个以上的程序或任务并行处理。•分布式检索:允许检索请求在不同地点、不同结构的系统平台上运作。Z39.50协议是一种信息检索标准,常用于分布在各地的图书馆书目数据库系统的检索。遵循了Z39.50协议,只要进入一个界面,不需要重新退出再进入。近年来推出了基于OAI协议的分布式检索。作为开放式数字资源库,OAI必须遵守如下规定:作为数据库提供者应能用通用公共元数据描述所存储的对象•基于知识的智能检索:如检索“华人”,可把包含“中华人民共和国”的内容不检索出来

4、;检索“电脑”,可以把包含“计算机”的内容检索出来。现阶段智能型检索系统应该有以下功能:a.具有大规模实例描述的汉语分词排歧知识库;b.具有主题词典、广义同义词检索、拼音检索、同音检索等功能;c.具有基于内容的相似性检索功能,具有自动分类和自动摘要功能,具有知识压缩和去重功能;d.具有文本挖掘功能等。14信息检索•知识挖掘:主要指文本挖掘技术的发展,目的是帮助人们更好地发现、组织、表示信息,提取知识,满足信息检索的高层次需要。(包括摘要、分类等)•异构信息整合检索:能够检索和整合不同来源和结构的信息。•全息检索:就是支持一切格式和方式的检索。•自然语言检索:

5、应是信息检索的发展趋势。自然语言与人工语言相结合,才能更好地发挥自然语言检索的优势。•跨语言信息检索:可以用一种语言去检索其他语言的资源。•问答系统:输入的查询是问题,要求从给定语料库中返回文本。•概念空间:通过对目标文档进行概念选取、概念类聚而形成,是一个概念网络。概念空间是一个智能化索引,每个索引项(概念)通过一层或多层的概念与原文档建立联系。•信息融合技术:是一种综合利用多种信息资源,以获得对某一事物更客观、更本质认识的信息处理技术。可以合理地组织查询结果,减少不必要的信息冗余,使用户获得完整、准确、及时、有效的而且是简洁、明了的实用信息。4.检索效果

6、评价:判定一个检索系统的优劣,主要应从质量、费时和时间三方面来衡量。*5.查全率=检出的相关信息数/信息库中相关信息总数*100%=a/a+c*100%*6.查准率=检出的相关信息数/检出的信息总数*100%=a/a+b*100%*查全率和查准率必须结合使用,单独使用两者中的任何一个都不能全面说明检索效果的好坏。若检出一篇相关信息,必能达到100%的查准率,但查全率却会非常低;同样,若检出信息数等于库中信息的总量,则必能100%的查全率,但查准率一定很低。*7.误检率=检出的非相关信息数/检出的信息总数*100%=b/a+b*100%*8.漏检率=未检出的相

7、关信息数/信息库中相关信息总数*100%=c/a+c100%*查全率和漏检率是互补的;查准率和误检率也是互补的。它们相加等于一。9.其他评价指标:均衡查全和相对查全指标。还有错检率和相关率。*10.不同的用户对查全率和查准率的要求不同。如一个正在从事某项研究的用户,可能需要高查全率,允许较低的查准率,以保证不遗漏任何重要的信息。而对于查新人员来说,为了找到与查新项目内容一致的信息,他可以要求高查准率。*二.了解1.信息检索经历了从手工到机械再到计算机化检索的发展过程:·手工检索(1876-1954)·脱机批处理检索(1954-1965)·联机检索(1965-

8、1991)联机检索是计算机技术、信息处理技术和现代通

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。