基于web的网络爬虫的设计与实现new

基于web的网络爬虫的设计与实现new

ID:33296058

大小:138.14 KB

页数:3页

时间:2019-02-23

基于web的网络爬虫的设计与实现new_第1页
基于web的网络爬虫的设计与实现new_第2页
基于web的网络爬虫的设计与实现new_第3页
资源描述:

《基于web的网络爬虫的设计与实现new》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、您的论文得到两院院士关注网络与通信文章编号:1008-0570(2007)07-3-0119-03基于Web的网络爬虫的设计与实现DesignandImplementationofSpideronWeb-basedFull-textSearchEngine(首都师范大学)徐远超刘江华刘丽珍关永XUYUANCHAOLIUJIANGHUALIULIZHENGUANYONG摘要:无论是站内信息检索还是特定的Web信息搜集,都离不开全文搜索引擎系统的核心模块——网络爬虫,本文详细介绍了一种设计及实现方案,包括页面搜集器和页面索引器的基本工作流程、数据存储结构、核心算法及主

2、要的技术难点。该系统经实际运行,效果良好,最后给出了有待进一步改进的地方。关键词:搜索引擎;网络爬虫;信息检索;页面索引中图分类号:TP391文献标识码:AAbstract:Whetherinsidewebsiteinformationretrievalorspecialwebinformationcollecting,spideristheessentialandmostimportantmodule.Onewayofdesignandimplementationofspideronweb-basedfull-textsearchenginewasintrodu

3、cedindetail,includingthebasicworkprinciple、databasestructure、keyarithmeticandtechnicaldifficultiesaboutwebpagecollectingandwebpageindexing.Thisblueprinthasbeenprovedtobefeasible.Intheenditgivessomeaspectstobeimprovedon.技Keywords:searchengine,spider,informationretrieval,webpageindexing

4、术址记录,检测当前网址链接的有效性。如果有效,则将当前网址1引言对应的HTML页面保存到本地磁盘,然后将该HTML页面上的创搜索引擎(SearchEngine)是随着Web信息的迅速增加,从所有超链摘取出来,将此超链集合以追加的形式加入到1995年开始逐渐发展起来的技术。要在浩瀚的信息海洋里寻找UnCheckedURL数据库的尾部,并以广度优先搜索算法遍历新信息,往往是“大海捞针”,无功而返,为了解决这个“迷航”,出UnCheckedURL数据库。现了搜索引擎技术。当然,在高性能计算机上,可以让spider程序并行工作。假搜索引擎以一定的策略在互联网中搜集、发现信

5、息,对信设一台计算机是一个节点,每个节点上运行着10个spider程息进行理解、提取、组织和处理,并为用户提供检索服务,从而序,每个spider程序同时进行着页面的下载和超链的摘取工起到信息导航的目的。搜索引擎提供的导航服务已经成为互联作,每个spider程序对应着自己的UnCheckedURL数据库,将网上非常重要的网络服务,搜索引擎站点也被美誉为“网络门下载的页面保存到本地磁盘的同一目录下,并将保存到目录下户”。尽管基于海量多媒体信息的语音、图形、视频搜索引擎技术成为搜索引擎领域的研究热点,但是基于Web的全文本搜的页面文件以相同的命名规则命名,以供页面分析器

6、使用。索引擎仍然是使用最为广泛的,如信息量较大的专业门户网站2.2UnCheckedURL数据库的站内信息检索、基于互联网的特定信息搜集等等。UnCheckedURL数据库的作用在于存储从HTML页面上摘一般情况下,基于Web的全文搜索引擎均由页面搜集器、取的超链集合,搜集器就是通过该数据库取出网址,然后根据页面索引器、页面检索器等三个主要部分组成,如图1所示。该网址去下载所指定的下一个HTML页面,并将下载下来的页面保存到本地磁盘,这些保存到本地磁盘的页面就成为后来的快照文件。表1UnCheckedURL数据库图1基于Web的全文搜索引擎系统架构其中页面搜集器和

7、页面索引器是搜索引擎最为核心的模块,主要由称为spider的爬虫程序来完成,以下给出一种详细的设计及实现方案。在该数据库中,URL字段设为主键,这样可以防止重复链2页面搜集器的设计接的出现。设置checked字段的目的主要是标识爬虫程序的2.1基本工作流程起始点,在数据库中将检测过的URL,无论是否有效,都将Spider首先从UnCheckedURL数据库(表1)中取出一条网checked字段置为0,将刚从HTML页面摘取出来的URL所对徐远超:讲师硕士应的checked字段置为1,这样,在Spider程序重启的时候,都基金项目:北京市自然科学基金资助项目(406

8、2009)

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。