基于搜索引擎分类及特点的分析

基于搜索引擎分类及特点的分析

ID:30642028

大小:18.50 KB

页数:6页

时间:2019-01-02

基于搜索引擎分类及特点的分析_第1页
基于搜索引擎分类及特点的分析_第2页
基于搜索引擎分类及特点的分析_第3页
基于搜索引擎分类及特点的分析_第4页
基于搜索引擎分类及特点的分析_第5页
资源描述:

《基于搜索引擎分类及特点的分析》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、从本学科出发,应着重选对国民经济具有一定实用价值和理论意义的课题。课题具有先进性,便于研究生提出新见解,特别是博士生必须有创新性的成果基于搜索引擎分类及特点的分析  摘要:随着信息技术的发展,网络的推广应用,搜索引擎在网络用户的生活中起着举足轻重的作用,本文就全文搜索引擎、目录搜索引擎和元搜索引擎做分析比较,并对目前的搜索引擎的特点进行了详细描述。  关键词:搜索引擎;分类;特点;爬虫;元搜索引擎   搜索引擎的工作原理为:从互联网上抓取网页→建立索引数据库→在索引数据库中搜索排序。从互联网上抓取网页利用

2、能够从互联网上自动收集网页的Spider系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。建立索引数据库由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息根据一定的相关度算法进行大量复杂计算,得到每1个网页针对页面内容中及超链中每1个关键词的相关度,然后用这些相关信息建立网页索引数据库。在索引数据库中搜索排序当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。最后由页面生成系统将搜索结果的链接地址和页面

3、内容摘要等内容组织起来返回给用户。  搜索引擎按其工作方式可分为三种,全文搜索引擎,目录搜索引擎和元搜索引擎。  1全文搜索引擎课题份量和难易程度要恰当,博士生能在二年内作出结果,硕士生能在一年内作出结果,特别是对实验条件等要有恰当的估计。从本学科出发,应着重选对国民经济具有一定实用价值和理论意义的课题。课题具有先进性,便于研究生提出新见解,特别是博士生必须有创新性的成果基于搜索引擎分类及特点的分析  摘要:随着信息技术的发展,网络的推广应用,搜索引擎在网络用户的生活中起着举足轻重的作用,本文就全文搜索引

4、擎、目录搜索引擎和元搜索引擎做分析比较,并对目前的搜索引擎的特点进行了详细描述。  关键词:搜索引擎;分类;特点;爬虫;元搜索引擎   搜索引擎的工作原理为:从互联网上抓取网页→建立索引数据库→在索引数据库中搜索排序。从互联网上抓取网页利用能够从互联网上自动收集网页的Spider系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。建立索引数据库由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息根据一定的相关度算法进行大量复杂计算,得到每1个

5、网页针对页面内容中及超链中每1个关键词的相关度,然后用这些相关信息建立网页索引数据库。在索引数据库中搜索排序当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。最后由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。  搜索引擎按其工作方式可分为三种,全文搜索引擎,目录搜索引擎和元搜索引擎。  1全文搜索引擎课题份量和难易程度要恰当,博士生能在二年内作出结果,硕士生能在一年内作出结果,特别是对实验条件等要有恰当的估计。从本学科出发,应着重选对国民经

6、济具有一定实用价值和理论意义的课题。课题具有先进性,便于研究生提出新见解,特别是博士生必须有创新性的成果  全文搜索引擎的代表是网络爬虫,网络爬虫是一个自动提取网页的程序,它为搜索引擎从Internet网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并放入等待抓取的URL队列。

7、然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页,并重复上述过程,直到达到系统的某一条件时停止。所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。爬虫设计是否合理将直接影响它访问Web的效率,影响搜索数据库的质量,另外在设计爬虫时还必须考虑它对网络和被访问站点的影响,因为爬虫一般都运行在速度快,带宽高的主机上,如果它快速访问一个速度较慢的目标站点,可能导致该站点出现阻塞。Ro

8、bot应遵守一些协议,以便被访问站点的管理员能够确定访问内容,Index是一个庞大的数据库,爬虫提取的网页将被放入到Index中建立索引,不同的搜索引擎会采取不同方式来建立索引,有的对整个HTML文件的所有单词都建立索引,有的只分析HTML文件的标题或前几段内容,还有的能处理HTML文件中的META标记或特殊标记。  目录搜索引擎  目录搜索引擎的数据库是依靠专职人员建立的,这些人员在访问了某个Web站点后撰写一段对该站点的描

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。