信息检索技术方法及搜索引擎

信息检索技术方法及搜索引擎

ID:20091460

大小:42.50 KB

页数:9页

时间:2018-10-10

信息检索技术方法及搜索引擎_第1页
信息检索技术方法及搜索引擎_第2页
信息检索技术方法及搜索引擎_第3页
信息检索技术方法及搜索引擎_第4页
信息检索技术方法及搜索引擎_第5页
资源描述:

《信息检索技术方法及搜索引擎》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、信息检索技术方法及搜索引擎第一节:信息检索技术数字资源的检索技术布尔逻辑检索技术1截词检索技术2邻近检索技术3字段检索技术4布尔逻辑检索是指通过标准的布尔逻辑关系算符来表达检索词与检索词间的逻辑关系的检索方法.主要的布尔逻辑关系词有:逻辑与(AND),逻辑或(OR),逻辑非(NOT)1布尔逻辑检索技术逻辑与逻辑乘:"and"或"*"表示组配方式:A*B或者AandB表示两个概念的交叉和限定关系,只有同时含有这两个概念的记录才算命中信息作用:增加限制条件,即增加检索的专指性,以缩小提问范围,减少文献输出量,提高查准率.逻辑或又称逻辑和:"or","+"组配方式:AORB或者

2、A+B,表示检索含有A词,或含有B词,或同时包含A,B两词的文章.作用:放宽提问范围,增加检索结果,起扩检作用,提高查全率.逻辑非又称逻辑差:"not""-"组配方式:A-B,表示检索出含有A词而不含有B词的文章.作用:逻辑非用于排除不希望出现的检索词,它和"*"的作用相似,能够缩小命中文献范围,增强检索的准确性.例如检索:"打印机驱动程序"查询关键词:打印机,驱动程序检索表达式:打印机AND驱动程序例如检索:"微型计算机"方面的有关信息查询关键词:微型计算机,微机检索表达式:微型计算机OR微机布尔逻辑检索举例布尔运算符优先级比较有括号时:括号内的先执行;无括号时:NOT

3、>AND>OR例:检索"唐宋诗歌"的有关信息.关键词:唐,宋,诗歌;检索表达式:(唐OR宋)AND诗歌;唐AND诗歌OR宋AND诗歌;错误表达式:唐OR宋AND诗歌;唐AND宋AND诗歌;唐OR宋OR诗歌;唐AND宋OR诗歌;布尔逻辑运算符优先级请注意在不同的数据库中,所使用的逻辑符号可能是不同的,有的用"and,or,not"有的用"*,+,-".一些检索工具会完全省略任何符号和关系,直接把布尔逻辑关系隐含在菜单中.一些网络检索工具如搜索引擎甚至用"〕,,,-"(即空格,逗号,减号)来表示.主要应用于西文数字资源的检索定义:是指在检索式中用专门的符号(截词符号)表示检索

4、词的某一部分允许有一定的词形变化.作用:主要是提高查全率截词符一般用""或"*"表示2截词检索技术截词位置按截词位置可分为前截词,后截词,前后截词和中间截词;按截断字符数的不同,可分为有限截断和无限截断.右截词,又称后截词,前方一致.允许检索词尾有若干变化.例如comput*将检索出computer,computing,computerised,computerized,computerization等结果.中间截词,又称前后方一致.允许检索词中间有若干变化.例如wom*n,检索到woman,women的结果.英美的不同拼法,defen*e可同时检出defence和def

5、ense的结果.左截词,又称前截词,后方一致,允许检索词前有若干变化,例如*physics就可检索到physics,astrophysics,biophysics,chemophysics,geophysics等词的结果.前后截词:词干的前后各有一个截词符,允许检索词的前端和尾部各有若干变化形式.如computer可检索computer,computers,computerize,computerized,computerization,minicomputer,minicomputers,microcomputer,microcomputers等结果.请注意在不同的数据

6、库和联机检索系统中,所使用的截词符号没有统一的标准,有的用"",有的用"*",有的用"#",用的用"$"等.即便常用的""和"*"在不同的数据库中其用法也是不一定相同的.在允许截词的检索工具中,一般是指右截词,部分支持中间截词,左截词比较少见.我们将要使用的一些数据库,一般用"*"代表一个字符串,用""代表任意一个字符.邻近检索又称位置检索,主要是通过检索式中的专门符号来规定检索词在结果中的相对位置.例如检索"生物防治"的文献,若用检索式"biological*control"检索,则会将"抑制生物"(controlbiological)的文献也查出来,这显然不是所需文献

7、.主要有相邻位置算符(W),(nW),(N),(nN),句子位置算符(S),字段算符(F).3邻近检索技术(W)算符(W)是with(word)的缩写,表示此算符两侧的检索词必须按此前后顺序相邻排列,词序不可变,且两词之间不许有其他的词或字母,但允许有一空格或标点符号.如biological(W)control相当于检索biologicalcontrolCD(W)ROM相当于检索CDROM或CD-ROM.(nW)算符(nW)是nwords的缩写,表示此算符两侧的检索词之间允许插入最多n个词,且词序不可变.如wear(1W)ma

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。