一种新型网络爬虫的设计与实现

一种新型网络爬虫的设计与实现

ID:46915916

大小:296.85 KB

页数:3页

时间:2019-11-29

一种新型网络爬虫的设计与实现_第1页
一种新型网络爬虫的设计与实现_第2页
一种新型网络爬虫的设计与实现_第3页
资源描述:

《一种新型网络爬虫的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、网络与通信《微计算机信息》(管控一体化)2010年第26卷第1-3期文章编号:1008-0570(2010)01-3-0136-02一种新型网络爬虫的设计与实现Design&ImplementationofaNewTypeWebCrawler1朱丽君2李彩虹1(1.山东理工大学;2.淄博实验中学)王江红WANGJiang-hongZHULi-junLICai-hong摘要:网络爬虫是当今网络实时更新和搜索引擎技术的共同产物。文中深入探讨了如何应用网络爬虫技术实现实时更新数据和搜索引擎技术。在对网络爬虫技术进行深入分析的基础上,给出了一种用

2、网络爬虫技术实现局域网内服务器和客户端之间网络通信的解决方案。关键词:Socket;Http;网络爬虫;客户端/服务器中图分类号:TP391文献标识码:AAbstract:Thewebcrawlerisacommonproductofthenetworkreal-timerefreshdataandsearchenginetechnologyatpresent.ThisarticlediscussesandstudiesthoroughlyhowtoapplytheWebCrawlertechniquetorealizethereal-t

3、imerefreshdataandsearchen-ginetechnology.OnthebasisofdeepanalysistotheWebCrawlertechnique,thisarticlegivesakindofsolutiontorealizenetwork技communicationsbetweentheserverandtheclientinthelocalareanetworkwiththeWebCrawlertechnique.Keywords:Socket;Http;WebCrawler;Client/Serve

4、r术网络带宽和CPU资源,资源消耗过大,增加了被搜索结点的负1引言创担;又由于链路效率太低,对一些连接代价很大的获得索引,难免随着网络的迅速发展,万维网成为大量信息的载体,而万维有不能及时加入的新WWW地址。此外,由于各搜索引擎标引新网可以看作是一个分布式动态快速增长的由各类文档组成的方式没有统一的规范,有的对网页全文进行索引,有的仅标引网海量信息资源中心,其信息量呈几何指数增长,如何有效地提取页的标题、RUL、关键段落的前几个单词或文本的前100个词,并利用这些信息成为一个巨大的挑战。搜索引擎(SearchEn-而且生成关键词的技术也不

5、一样,有的支持MetaTags,接受网页gine),例如传统的通用搜索引擎AltaVista,Yahoo!和Google等,作制作者自定义关键词和摘要,有的则不支持MetaTags,仅仅利用为一个辅助人们检索信息的工具成为用户访问万维网的入口网页的前几行字作为摘要。此外,搜索引擎大多采用自然语言标和指南。在这样的背景下,人们提出了“网络爬虫技术”的概念并引和检索,没有受控词表,同义词和近义词得不到控制,词间的关通过一定的技术得以实现。系得不到揭示。因此,搜索引擎的信息组织与标引缺乏控制,信息查询的命中率、准确率、查全率差强人意,往往是输入

6、一个检2系统开发背景索式,得到一大堆网页地址,但其中大部分是冗余信息。2.1搜索引擎2.2网络爬虫搜索引擎是一种能够通过Internet接受用户的查询指令并网络爬虫是一个自动提取网页的程序,它为搜索引擎从万向用户提供符合其查询要求的信息资源网址系统。它是一些在维网上下载网页,是搜索引擎的重要组成。WEB中主动搜索信息(网页上的单词和特定的描述内容)并将传统爬虫从一个或若干初始网页的URL开始,获得初始网其自动索引的WEB网站,其索引内容存储在可供检索的大型页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的数据库中,建立索引和目录服

7、务。URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工搜索引擎也是目前Internet对信息资源进行组织的主要方作流程较为复杂,需要根据一定的网页分析算法过滤与主题无式。搜索引擎由网上机器人(Spider或Rooter)自动在网页上按某关的链接,保留有用的链接并将其放入等待抓取的URL队列。种策略进行远程数据的搜索和获取,并生成本地索引。Spider或然后,它将根据一定的搜索策略从队列中选择下一步要抓取的Rooter是一种软件,它沿着WWW文件的链接在网上漫游,记录网页URL,并重复上述过程,直到达到系统的某一条件时停止。URL、文

8、件的简明摘要、关键字或索引,形成一个很大的数据库。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分这种数据库包括标题、摘要、关键字和URL、文件的大小、语种析、过滤,并建立索引,以便之后

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。