浅析专业搜索引擎Spider策略

浅析专业搜索引擎Spider策略

ID:46256418

大小:137.76 KB

页数:7页

时间:2019-11-22

浅析专业搜索引擎Spider策略_第1页
浅析专业搜索引擎Spider策略_第2页
浅析专业搜索引擎Spider策略_第3页
浅析专业搜索引擎Spider策略_第4页
浅析专业搜索引擎Spider策略_第5页
资源描述:

《浅析专业搜索引擎Spider策略》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、浅析专业搜索引擎Spider策略近年来,随着因特网技术的迅速发展和广泛应用,传统的搜索引擎正而临巨人挑战。挑战Z—是因特网上Web信息资源呈指数级增长,搜索引擎无法索引所冇的页面。据统计,到2001年1月,Web上静态页面的数量超过40亿个,而且这擞量还在以平均每天730万个页面的速度递增。在过去的儿年中,尽管各种通用搜索引擎,如Google,Fast,AltaVista和GoTo等在索引技术、索引数量上有所提高,但远远无法跟上Web本身的増长速度,即使是目前全球最人的搜索引擎Google,其索引的页而数用仅占W

2、eb总量的40%,见下图。Fl*AUVWaNDfllMOTUgMGixqIiMiiuHlymenoi・t.挑战之二是Web信息资源动态变化,搜索引擎无法保证対信息的及时更新。近年來的研究表明,Web上平均50天就冇约50%的页面发生变化,而冃前通用搜索引擎更新的时间至少需要数星期Z久;挑战Z三是传统的搜索引藥提供的信息检索服务,不能满足人们日益增长的对个性化服务的需要。传统搜索引擎设计的目的是满足普通人群对“公共”信息查询的需要,主要根据用户输入的“查询串”与索引页面匹配程度的高低返回页面,这种检索方式不但帯回大

3、量的无关页面,而且缺乏个性,不能满足特定人群的需要。面对这些挑战,各类适应特定人群需要的“专业搜索引擎”(Topic-SpecificSearchEngine)应运而生并越来越受到人们的关注与青睐。对于专业搜索引擎,其搜索的内容只限于专门领域,传统的广度优先搜索策略已不再适用。以何种策略访问Web,以提高搜索效率,是近年来专业搜索引擎研究的焦点之一。专业搜索引擎的体系结构分析搜索引擎一般由网络蜘蛛Spider.索引器、检索器和丿IJ户接口四个基木部分组成。网络蜘蛛Spider是一种网络资源发现与收集的程序.网络蜘

4、蛛Spider它通常从一个“种子集”(如用八査询、种子链接或种子页而)出发,通过HTTP即等协议请求并下载网络资源,分析资源并提取链接,然后再以循环迭代的方式访问网络•一个搜索引擎能为用户提供资源索引的数量和索引的“新鲜程度”都决定于Spidei•的性能和工作方式。索引器负责从意义上理解Spider采集来的以文本内容为主的网络资源。索引器从屮资源屮抽取出索引项,用于表示文档以及生成文档库的索引表。一个搜索引擎的冇效性在很大程度上取决于索引器的索引质量。检索器根据用户的查询在索引库中快速检出文档,对用户的查询与文档

5、进行相关度评价,对将要输出的结果进行排序。在满足了返冋结果基木的数量示,用户更关心是结果的排序,好的排序算法,能减少用户从大虽返回结果中进行的“二次查找”。著名的商业搜索引擎Google的PageRank就是一个比较成功的排序算法。用户接口的作用是输入用户杳询,显示杳询结果,提供用户交互反馈机制。主要的目的是方便用户使用搜索引繁,能够高效率、多方式地从搜索引擎中得到冇效、及时的信息。专业搜索引擎的资源搜索范围限于特定的领域,专业搜索引擎Spider搜索策略是希望能在相对较少的采集次数屮获得尽町能多的木领域相关资源

6、。Spider工作原理网络蜘蛛Webspider(«R称Crawler)是一种能够跟踪网络上超链接结构,并不断进行网络资源发现与采集的程序。作为搜索引擎的资源采集部分,WebSpider的性能将直接影响到整个搜索引擎索引网页的数量、质駅和更新周期。网络蜘蛛WebSpider,以何种方式、何种策略访问因特网是搜索引擎研究的主要问题之一。网络蜘蛛Webspicier的研究离不开对网络蜘蛛搜索对象的分析。因特网信息资源作为WebSpider的采集目标具有以下的特点:(1)大规模:根据中国网统计(2004.7),因特网上

7、现冇3亿多中文网页。总数据量约6TB,这还仅仅是文本资源,未包含图片,音频视频等多媒体资源。(2)分布性:上述海量信息散布于人约50万站上,这些网站同时又分布在不同地域,不同网络管理类型的网络上。(3)动态性:因特网上的信息时刻处F变化Z中,IH的页面不断被更新(包括内容改变、位置移动等)、删除、新的页而不断出现。(4)多领域:因特网信息资源的内容丰富,覆盖了科研、商业、政府等几乎所有领域,包含新闻、报告、论文等多种类型。(5)半结构化或无结构化:Web页面通常仅有有限的结构,或者根本就没有结构,即使具有一些结构

8、,也是著重于格式,而非内容。此外,页面的内容是人类所使用的自然语言,计篦机很难处理其语义。这些都是网络蜘蛛WebSpider在进行网络资源采集时需要面对的问题,也是在WebSpider设计时需要解决的问题。对于专业搜索引擎,其WebSpider而临的不仅仅是将这些资源采集回来的问题,更主要的是能够对具有上述特点资源进行分析,用冇限的采集规模获得尽可能多的专业相关的网络资源

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。