信息存储与检2

信息存储与检2

ID:42769857

大小:52.00 KB

页数:9页

时间:2019-09-21

信息存储与检2_第1页
信息存储与检2_第2页
信息存储与检2_第3页
信息存储与检2_第4页
信息存储与检2_第5页
资源描述:

《信息存储与检2》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、《信息存储与检索》课程实验报告开课实验室:2011年11月5日学院年级、专业、班姓名成绩课程名称实验项目名称网络搜索引擎指导教师教师评语教师签名:年月日一、实验目的掌握网络检索的主要工具(特别是Google)的基本使用方法、技巧和步骤,采集并了解网络搜索引擎的工作原理,采集并了解Google公司的发展历史、技术进展与企业经营战略和企业文化。二、实验步骤1了解网络检索的主要工具2掌握其(特别是Google与Baidu)基本使用方法、技巧和步骤。3自己熟悉应用搜索引擎查找所需信息4总结网络搜索引擎的工作原理、结构与流程。5利用搜索引擎收集整理并写出本虚拟企业所处行业

2、的发展状况的评述6了解谷歌、百度公司的发展历史、技术进展与企业经营战略和企业文化7谈谈网络搜索引擎未来的发展趋势三、实验结果及分析随着互联网的迅速发展,网上信息夜以惊人的速度增长,为了快速地检索网上信息,人马开发了一种信息检索工具,即搜索引擎。搜索引擎实际上就是对www站点资源和其他网络资源进行标引并提供检索服务的服务器或网站,是一个基于互联网的信息搜集、组织和用户查询的平台。搜索引擎的基本功能就是它的检索功能。随着信息技术的发展,搜索引擎又具备了一些高级检索功能,如加权检索、自然语言检索、多语种检索、区分大小写的检索。相关信息反馈、模糊检索和概念检索等。搜索引

3、擎是一个集多种技术于一体的综合性网络应用系统,包括网络技术、数据库技术、自动标引技术、检索技术、自动分类技术、机器学习人工智能技术等。虽然它们表现为不同的形势,但基本上有收集器、索引器、检索器和用户接口4部分组成。搜集1、搜集信息(抓取网页):搜索引擎的信息搜集基本都是自动的。搜索引擎利用称为网络蜘蛛(NetworkSpider)的自动搜索机器人程序来连上每一个网页上的超连结。机器人程序根据网页链到其他中的超链接,就象日常生活中所说的“一传十,十传百……”一样,从少数几个网页开始,连到数据库上所有到其他网页的链接。理论上,若网页上有适当的超连结,机器人便可以遍历

4、绝大部分网页此过程基本都是自动完成的。每个独立的搜索引擎都有自己的网页抓取程序(又叫网络蜘蛛或蜘蛛)。网络蜘蛛会顺着网页中的链接,连续地抓取网页。被抓取的网页被称之为网页快照。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。所以目前绝大多数的网站都会制作一个专门的页面来详细的介绍站点的版块及结构并附上链接以更好的让搜索引擎顺利的抓取站点的信息,这样的页面通常称之为网站地图。整理信息:搜索引擎整理信息的过程称为“建立索引”。搜索引擎不仅要保存搜集起来的信息,还要将它们按照一定的规则进行编排。这样,搜索引擎根本不用重新翻查它所

5、有保存的信息而迅速找到所要的资料。想象一下,如果信息是不按任何规则地随意堆放在搜索引擎的数据库中,那么它每次找资料都得把整个资料库完全翻查一遍,如此一来再快的计算机系统也没有用。搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引文件。其他还包括去除重复网页、分析超链接、计算网页的重要度等一系列用于评价网站的指标(PageRank、Alexa排名、收录数、链接数等)。接受查询:用户向搜索引擎发出查询请求,搜索引擎接受查询并向用户返回资料。搜索引擎每时每刻都要接到来自大量用户的几乎是同时发出的查询,它按照每个用户的要

6、求检查自己的索引,在极短时间内找到用户需要的资料,并返回给用户。用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;目前,搜索引擎返回主要是以网页链接的形式提供,通过这些链接,用户便能到达含有自己所需资料的网页。为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息以帮助用户判断此网页是否含有自己需要的内容。1)搜索器在互联网中发现并且取回尽量多的网页信息;2)索引器将搜索器所搜索到的网页信息切分成多个关键字,以关键字作为索引项,用于表示文件以及生成文件库的索引表;3)检索器根据用户的查询在索引库中快速检索文件,进行相

7、关度匹配,对检索到的结果进行排序,返回相应的网页给用户;4)查询器的作用是接纳用户查询,显示查询结果,提供个性化查询项。索引器的好坏直接影响搜索引擎的质量,索引器从搜索器获取的资源中抽取信息,并建立利于检索的索引表。目前搜索引擎中最流行也最有效的索引方式是倒排文件,先将切词形成的顺排文件组织成索引数据,然后再进行倒排处理。1.搜索器  搜索器的功能是在互联网中漫游,发现和搜集信息。它常常是一个计算机程序,日夜不停地运行。它要尽可能多、尽可能快地搜集各种类型的新信息,同时因为互联网上的信息更新很快,所以还要定期更新已经搜集过的旧信息,以避免死连接和无效连接。目前有

8、两种搜集信息的策略: 从

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。