搜索引擎的工作原理及检索技巧之我见

搜索引擎的工作原理及检索技巧之我见

ID:21503031

大小:56.50 KB

页数:7页

时间:2018-10-22

搜索引擎的工作原理及检索技巧之我见 _第1页
搜索引擎的工作原理及检索技巧之我见 _第2页
搜索引擎的工作原理及检索技巧之我见 _第3页
搜索引擎的工作原理及检索技巧之我见 _第4页
搜索引擎的工作原理及检索技巧之我见 _第5页
资源描述:

《搜索引擎的工作原理及检索技巧之我见 》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、搜索引擎的工作原理及检索技巧之我见[]当前X络已经成为人们获取信息资源的基本工具之一,X络也相应成为最大的虚拟图书馆,但里面的信息丰富而杂乱,为了帮助人们能更方便地获得自己所需要的信息,搜索引擎相应而生。搜索引擎的工作原理如何,我们又将如何利用这一工具,帮助我们更有效地获得自己所需要的知识,正是本文所要探讨的内容。  [关键词]搜索引擎搜索技巧X络资源  []G250.73[]A[]1009-5349(2012)10-0039-02  引言  当前Inter正在以蓬勃的姿态快速发展,X上信息也以惊人的速度在增加,X络资源内容十分丰富,几乎涵盖全部领域,是名符其实的知识和信息的综合体,也是现代

2、人取得各种新闻、日常等信息的普遍工具。我们在X上自由地浏览和检索自己需要的信息,此时,X络就成为了一座虚拟的最大的图书馆,但是和有序的实体图书馆不同的是,这里的各种信息包括广告、八卦、杂志以及文献等都以杂乱无章状态陈列着,没有专门的组织机构将这些信息有序排列起来以供人们查阅使用。正是X络资源的优缺点,使得我们在使用X络查找自己所需要的信息时出现困难。所以,为了解决这种矛盾,搜索引擎就相应地诞生了,搜索引擎是互联X上的分布式搜索系统,它在传统数据库检索技术基础上增加了自动搜索和更新数据库信息的功能,并采用人工智能方法对检索结果进行区分和排序。  一、搜索引擎的工作原理  搜索引擎为了以最快的速

3、度得到搜索结果,它搜索的通常是预先整理好的X页索引数据库。搜索引擎,不能真正理解X页上的内容,它只能机械地匹配X页上的文字。真正意义上的搜索引擎,通常指的是收集了互联X上几千万到几十亿个X页并对X页中的每一个文字(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的X页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低,依次排列。  典型的搜索引擎三大模块组成:  (一)信息采集模块  信息采集器是一个可以浏览X页的程序,被形容为“X络爬虫”。它首先打开一个X页,然后把该X页的链接作为浏览的起

4、始地址,把被链接的X页获取过来,抽取X页中出现的链接,并通过一定算法决定下一步要访问哪些链接。同时,信息采集器将已经访问过的URL存储到自己的X页列表并打上已搜索的标记。自动标引程序检查该X页并为他创建一条索引记录,然后将该记录加入到整个查询表中。信息收集器再以该X页到超链接为起点继续重复这一访问过程直至结束。  一般搜索引擎的采集器在搜索过程中只取链长比(超链接数目与文档长度的比值)小于某一阀值的页面,数据采集于内容页面,不涉及目录页面。在采集文档的同时记录各文档的地址信息、修改时间、文档长度等状态信息,用于站点资源的监视和资料库的更新。在采集过程中还可以构造适当的启发策略,指导采集器的搜

5、索路径和采集范围,减少文档采集的盲目性。  (二)查询表模块  查询表模块是一个全文索引数据库,他通过分析X页,排除等语言的标记符号,将出现的所有字或词抽取出来,并记录每个字词出现的及相应位置(比如是出现在X页标题中,还是出现在简介或正文中),最后将这些数据存入查询表,成为直接提供给用户搜索的数据库。  (三)检索模块  检索模块是实现检索功能的程序,其作用是将用户输入的检索表达式拆分成具有检索意义的字或词,再访问查询表,通过一定的匹配算法获得相应的检索结果。返回的结果一般根据词频和X页链接中反映的信息建立统计模型,按相关度由高到低的顺序输出。  二、检索技巧  (一)合理选择分类目录  通

6、过分类目录浏览时使用搜索引擎的主要方法之一。搜索引擎中的分类目录吸取了图书分类法的重要思想和编目工作的许多内容。搜索引擎分类目录的特点是:第一,将所有类目构成一个树状的知识体系。从目录编制的依据看,国内许多X站的分类大多依据我国《标准化工作细则》中的“信息分类编码的基本原则和方法”分类。美国的绝大多数X站依据国际通行的黄页分类法设置类目,偏重于商业化。第二,具有多级类目结构,类目之间具有各种逻辑关系。交叉类目在不同类目下重复显示,并用符号标示出来。第三,书目记录是编目的成[]当前X络已经成为人们获取信息资源的基本工具之一,X络也相应成为最大的虚拟图书馆,但里面的信息丰富而杂乱,为了帮助人们能

7、更方便地获得自己所需要的信息,搜索引擎相应而生。搜索引擎的工作原理如何,我们又将如何利用这一工具,帮助我们更有效地获得自己所需要的知识,正是本文所要探讨的内容。  [关键词]搜索引擎搜索技巧X络资源  []G250.73[]A[]1009-5349(2012)10-0039-02  引言  当前Inter正在以蓬勃的姿态快速发展,X上信息也以惊人的速度在增加,X络资源内容十分丰富,几乎涵盖全部领域,是名符其实

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。