计算机信息检索基本原理及检索技术

计算机信息检索基本原理及检索技术

ID:46556151

大小:363.34 KB

页数:25页

时间:2019-11-25

计算机信息检索基本原理及检索技术_第1页
计算机信息检索基本原理及检索技术_第2页
计算机信息检索基本原理及检索技术_第3页
计算机信息检索基本原理及检索技术_第4页
计算机信息检索基本原理及检索技术_第5页
资源描述:

《计算机信息检索基本原理及检索技术》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第三章计算机信息检索第二节计算机信息检索基本原理及检索技术一、计算机信息检索原理计算机将输入机检系统的用户提问标识(检索词)与已存储在系统中数据库内的文献特征标识(标引词)进行机械性匹配比较,凡符合给定的比较原则和逻辑运算条件即为命中信息。检索提问字符串匹配数据库中特征标识字符串。二、计算机信息检索技术计算机检索时采用的相关技术,主要有布尔检索、词位检索、截词检索、限制检索。布尔检索利用布尔逻辑算符对检索词或检索代码进行组配形成检索式,以此检索式作为匹配依据,进行检索。布尔检索逻辑算符及其运算含义:逻辑或(OR,+)逻辑与(AND

2、,*)逻辑非(NOT,-)逻辑或(OR,+)表示它所连接的两个检索词只有其中任何一个出现在结果中就满足检索条件,即对于检索式“AORB”来说,数据库中的文献凡含有检索词A、或含有检索词B、或同时含有检索词A和B的均为命中文献。如COMPUTERANDLAW逻辑与(AND,*)表示它所连接的两个检索词必须同时出现在结果中才满足检索条件,即对于检索式“AANDB”来说,数据库中同时含有检索词A和检索词B的文献才算命中文献。【例】CARORTRUCK逻辑非(NOT,-)表示它所连接的两个检索词应该包含的一个检索词而不包含第二个检索词才满

3、足检索条件,即即对于检索式“ANOTB”来说,数据库中凡含有检索词A而不含有检索词B的文献才算命中文献。【例】图书馆NOT公共图书馆逻辑或——检索范围扩大,提高检索结果数量,保证有较高的查全率。逻辑与——检索结果范围缩小,增强检索的专指性,保证有较高的查准率。逻辑非——与逻辑与的作用类似,有缩小检索范围,提高检索准确性的作用。截词检索截词是指检索者将检索词汇在他认为合适的地方截断。截词检索是使用被截断的词汇进行检索匹配,并认为凡满足这个词局部中所有字符(串)要求的记录,都为命中文献。因此,检索词的不变部分加上由截词符号(一般用*表

4、示)所代表的任何变化形式所构成的词汇都是合法检索词。截词检索基于:西方语言构词灵活,在词干上加上不同的前后缀,可派生出许多新词汇。词干相同,派生出的词在基本含义上通常是一致的,形态的差别多半只是语法上的意义。正是这个原因,检索者如果不在检索式中列举出一个词的所有派生形式,检索时容易出现漏检。截词检索是防止这种类型漏检的有力手段,作为一种后控制措施,目前,大多数检索系统都提供截词检索能力。按截断的字符数量分:有限截断——指要具体说明截去的字符数量无限截断——指不具体说明截去多少个字符按截断位置分:后(右)截断、前(左)截断、中截断后

5、截断检索将截词符号置放在一个字符串右方,以表示其右边的有限或无限个字符不影响该字符串的检索匹配。从检索匹配性质上讲,后截断检索属于“前方一致”检索。【例】检索式“Comput*”无限后截断检索,可检出词汇有:ComputingComputerComputerized………………前截词检索将截词符号置放在一个字符串左方,以表示其左边的有限个或无限个字符不影响该字符串的检索。从检索性质上讲,前截词检索是“后方一致检索”。 【例】对于检索式“*magnetic”来说,能够检索出含有magneticelectromagnetic(电磁的)

6、paramagnetic(顺磁的)thermomagnetic(热磁的)中截词检索将截词符号置放在一个检索词的中间,而不是左右两侧。仅允许有限截词,主要用于英、美拼写不同的词和单复数拼写不同的词。【例】organi?ation可检索出含有organisation和organization的记录。Wom*n可检索出Woman、Women截词检索具有隐含的“逻辑或(OR)”运算特性,检索式brows*等价于检索表达式:browseORbrowserORbowsersORbrowsingOR……不同类型的截词检索方法不仅能扩大检索范围,

7、提高查全率,而且还可以减少检索词的输入量,简化检索步骤。限制检索(字段检索)在检索系统中,通常提供一些约束检索结果的检索技术,以提高查准率,称为限制检索。限制检索的方式很多,其中最主要的限制检索技术是通过限制检索词在命中结果记录中出现的位置(主要是指记录的不同字段位置)来实现的,因此也称为“字段检索”。主题字段——标题(Title)、主题词(Controlledterm)、关键词(Keyword)、文摘(Abstract)、分类号(Classificationcode)非主题字段——作者(Author)、作者工作单位(Author

8、affiliation)、连续出版物编号(ISSN)、文献类型(Document)、语言(Language)、出版者(Publisher)等《工程索引》(EI)数据库检索系统中的 字段及字段代码字段名称字段代码AllfieldsALLAuthorA

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。