【云南大学】信息检索期末复习重点

【云南大学】信息检索期末复习重点

ID:39590137

大小:30.29 KB

页数:9页

时间:2019-07-06

【云南大学】信息检索期末复习重点_第1页
【云南大学】信息检索期末复习重点_第2页
【云南大学】信息检索期末复习重点_第3页
【云南大学】信息检索期末复习重点_第4页
【云南大学】信息检索期末复习重点_第5页
资源描述:

《【云南大学】信息检索期末复习重点》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、云南大学信息检索重点第一章一、检索策略定义:在处理信息需求提问实质的基础上确定检索途径、检索词语并明确各词语之间的逻辑关系,查找步骤、系统输出顺序等方面的科学安排,与检索效果密切相关。二、检全率与检准率1.检全率及其影响:检全率=(检出的相关信息数/信息库中相关信息总数)x100%2.检准率及其影响:检准率=(检出的相关信息数/检出的信息总数)x100%影响检出文献的检索效果的质量。三、检索模型1.布尔检索模型(1)定义:布尔检索模型采用布尔代数和集合论的方法,用布尔表达式表达用户提问,通过对文献表示与提问式的逻辑运算来检索文献。(2)优点:

2、简单、易理解、易实现、能处理结构化提问(3)缺点:A.布尔检索式的非友善性,即构建一个好的检索式是不容易的。尤其是对复杂的检索课题,不易套用布尔检索模型。B.易造成零输出或过量输出。检索输出完全依赖布尔提问式与系统倒排挡中的文献匹配情况,输出量较难控制。C.无差别的组配元,不能区分各组配元的重要程度。D.匹配标准存在某些不合理的地方。由于匹配标准是有或无,因此,对于文献中表因此的数量没有评判,都一视同仁。E.检索结果不能按照重要性排序输出。2.向量检索模型(1)定义:向量检索是以向量的方式确定检索内容的方法,系统中的每一篇文献和每个提问均用等

3、长的向量表示。(2)优点:A.采用自动标引技术维文献提供标引词B.改变了布尔检索非“1”即“0”的简单判断,标引词和文献的相关程度可在【0,1】闭区间中取值,使标引和检索者都可比较灵活地定义组配元(标引词)与文献的关系深度,改变了布尔检索模型僵化的特点。C.由于以其相似的程度作为检索的标准,可从量的角度判断文献命中与否,从而使检索更趋于合理。D.检索结果可按提问的相关度排序输出便于用户通过相关反馈技术修正提问,控制检索量。E.布尔模型的逻辑关系依然可以使用,保留了直观性和方便性。(3)缺点:A.如检索过程转化为向量的计算方法,不能反映出文献之

4、间的复杂关系B.由于对任何一个提问都需要计算全部文献库中的每一篇文献,因此,计算量大、算法复杂度高。C.由于标引加权和检索加权是分离的,因此,随意性较大,难以保证质量。3.概率检索模型4.扩展布尔逻辑检索模型5.相关反馈模型四、信息检索的步骤1.分析研究课题,明确查找要求2.选择检索工具3.制定检索策略、途径和方法4.根据文献线索,查阅原始文献五.信息检索的方法1.布尔检索与(AND*):A*B,表明一篇文献中A和B同时存在或(OR+):A+B,表明一篇文献中A或B必须存在,也包含同时存在非(NOT-):A-B,表明一篇文献中包含A但不包含B

5、2.截词检索(1)类型A.按截断位置:后截断、前截断、中截断;B.截断的字符数量:有限截断、无限截断。(2)实施A.后截断:将截词符号放在字符串右方,保持词的前方一致。computer*àcomputerise/computersB.前截断:将截词放在字符串左方,保持词的后方一致。*computeràmicrocomputer/minicomputerC.前后同时截断:*computer*D.中截断:又称通用字符法,将截词放在检索词的中间,主要解决一个词的英、美不同拼法及有些词的单复数问题。organi?ationàorganisation/

6、organization3.限制检索4.全文位置检索5.加权检索6.多媒体检索第二章一.基本概念1.书目数据库(1)定义:书目数据库是指存储某个领域的三次文献(如文摘、题录、目录等)书目数据的一类数据库,属于参考性数据库中的一种。(2)类型A.文摘、索引数据库:与书本式文摘、索引相同,提供确定的文献来源信息B.图书馆目录库(3)特点A.历史悠久,是机读数据库发展的先驱;B.文献数据量大,连续性累积性强;文献类型齐全,语种多C.使用上没有限制,开放性好D.记录结构简单固定;E.更新周期长,生产费用低;F.数据及主题词规范性好,索引系统完备。2.

7、全文数据库:其记录不仅包括原始文献的目录,而且收录了原始文献的全文。3.一次文献:一次文献又称为原始文献。它指作者以本人的研究成果为基本素材创作而成的文献。包括阅读性图书、期刊论文、科技报告、会议论文、专利说明书、技术标准、学术论文、实验记录、日记、备忘录、内部报告、技术档案、信件等公开或不公开发表的文献。译文一般也归入一次文献。4.二次文献:指文献工作者对分散的、无组织的一次文献进行加工、提炼和浓缩之后得到的产物,是为了便于管理和利用一次文献而编辑、出版和累积起来的工具性的文献。一般包括:目录、题名、文摘、索引。5.三次文献:是指对有关的一

8、次文献和二次文献进行广泛深入的分析研究之后综合概括而成的产物。如评述、综述、进展报告、百科辞典、名录、指南、手册。6.核心期刊:在某一学科中,少数期刊覆盖了该学科的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。