讨论搜索引擎的外文翻译

讨论搜索引擎的外文翻译

ID:8389566

大小:47.50 KB

页数:6页

时间:2018-03-24

讨论搜索引擎的外文翻译_第1页
讨论搜索引擎的外文翻译_第2页
讨论搜索引擎的外文翻译_第3页
讨论搜索引擎的外文翻译_第4页
讨论搜索引擎的外文翻译_第5页
资源描述:

《讨论搜索引擎的外文翻译》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第二届信息技术全国学术“挑战和机会”研讨会论文集探讨搜索引擎爬虫M.P.S.Bhatia*,DivyaGupta***内塔吉萨布哈什技术研究所,印度德里大学**德里工程纪念中学,印度德里大学随着网络难以想象的急剧扩张,从knowledgefromtheWebisbecominggraduallyimportantWeb中提取知识逐渐正在成为一个受欢迎的重要途径。这是由于网络的便利性和丰富性信息。通常需要使用基于网络爬行的搜索引擎来找到我们需要的网页。本文描述了搜索引擎的基本工作任务。概述了搜索引擎与网络爬虫之间的联系。关键词:爬行,集中爬行

2、,网络爬虫1.导言在网络上WWW是一种服务,驻留在连接到互联网的电脑上,并允许最终用户访问该是用标准的接口软件的计算机中存储的数据。万维网是获取访问网络信息的宇宙,是人类知识的体现。搜索引擎是一个计算机程序,它能够从网上搜索并扫描特定的关键字,尤其是商业服务,返回的它们发现的资料清单。抓取搜索引擎数据库的信息主要通过接收想要发表自己作品的作家的清单或者通过“网络爬虫”、“蜘蛛”或“机器人”漫游互联网捕捉他们访问过的页面的相关链接和信息。网络爬虫是一个能自动获取万维网的信息程序。网页检索[32]是一个重要的研究课题。爬虫是软件组件,它访问网络

3、中的树结构,按照一定的策略,搜索并收集当地库中检索对象。本文的其余部分组织如下:第二节中,我们解释了Web爬虫的背景细节。在第3节,我们讨论爬虫的类型,在第4节我们将介绍网络爬虫的工作原理。在第5节,我们搭建两个网络爬虫的先进技术。在第6节我们讨论如何挑选更有趣的网页的问题。2.调查网络爬虫网络爬虫几乎同网络本身一样古老。第一个爬虫,马修格雷流浪者,写于1993年,大约正好与首次发布的OCSAMosaic网络同时发布。在最初的两次万维网会议上发表了许多关于网络爬虫的文章。然而,在当时,网络比起现在要小上三到四个数量级,所以这些系统没有处理好

4、当今网络中一次爬网中固有的缩放问题。显然,所有常用的搜索引擎使用的爬网程序必须扩展到网络的实质性部分。但是,由于搜索引擎是一项竞争性质的业务,这些抓取的设计并没有公开描述。有两个明显的例外:谷歌履带式和网络档案履带式。不幸的是,说明这些文献中的爬虫程序是太简洁以至于能够进行重复。原谷歌爬虫(在斯坦福大学开发的)组件包括五个功能不同的运行流程。服务器进程读取一个文件的URL出来然后通过履带式转发到多个进程。每个履带进程运行在不同的机器,是单线程的,使用异步I/O采用并行的模式从最多300个网站来抓取数据。爬虫传输下载下载的页面到一个能进行网页

5、压缩和存储的存储服务器进程。然后这些网页由一个索引程序进行解读,从HTML页面中提取链接并将他们保存到不同的磁盘文件中。一个URL解析器进程读取链接文件,并将相对的网址进行存储,并保存了完整的URL到磁盘文件然后就可以进行读取了。通常情况下,因为三至四个爬虫程序被使用,所以整个系统需要四到八个完整的系统。在谷歌将网络爬虫转变成为一个商业成果之后在斯坦福大学仍然在进行这方面的研究。斯坦福WebBase项目已实施一个高性能的分布式爬虫,具有每秒可以下载50至100[21]件文件的能力。赵等人又发展了文件更新频率的模型以报告爬行下载计划的增量。互

6、联网档案馆还利用多台机器来检索网页。每个爬虫程序被分配到64个站点进行检索,并没有网站被分配到一个以上的爬虫。每个单线程爬虫程序读取其指定网站网址列表的种子从磁盘到每个站点的队列,然后用异步I/O来从这些队列同时抓取网页。一旦一个页面下载完毕,爬虫提取包含在其中的链接。如果一个链接提到它被包含在网页中的网站,它被添加到适当的站点排队;否则被记录到磁盘中。每隔一段时间,合并成一个批处理程序的具体地点的种子设置这些记录“跨网站“的网址,过滤掉进程中的重复项。WebFountain爬虫程序分享了墨卡托结构的几个特点:它是分布式的,连续(作者使用术

7、语“增量“),有礼貌,可配置的。不幸的是,写这篇文章,WebFountain是在其发展的早期阶段,并尚未公布其性能数据。BASICTYPESOFSEARCHENGINE3.搜索引擎基本类型A.基于爬虫的搜索引擎基于爬虫的搜索引擎自动创建自己的清单。计算机程序“'蜘蛛”建立他们没有通过人的选择[31]。他们不是通过学术分类进行组织,而是通过计算机算法把所有的网页排列出来。这种类型的搜索引擎往往是巨大的,常常能取得了大量的信息-它允许复杂的搜索范围内搜索以前的搜索的结果,使你能够改进搜索结果。这种类型的搜索引擎包含了网页中所有的链接。所以人们可

8、以通过匹配的单词找到他们想要的网页。A.人力页面目录这是通过人类选择建造的,即他们依赖人类创建列表。他们以主题类别和科目做网页的分类。人力驱动的目录,永远不会包含他们网页所有链接

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。