欢迎来到天天文库
浏览记录
ID:38230769
大小:399.95 KB
页数:3页
时间:2019-05-25
《一种通用Web信息采集系统的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第31卷第3期计算机工程2005年2月VoL31抽了ComputerEngineeringFebruary2005·网络与通信·文章编号:1000-3428(2005)03-41123-02文献标识码:A中图分类号:TP391一种通用Web信息采集系统的设计与实现吴丽辉,王斌,余智华(中国科学院计算技术研究所软件研究室,北京100080;中国科学院研究生院、摘要:介绍了一种通用的Webi言息采集系统,给出了系统总体结构,分析了信息采集器、采集控制服务器和信息发布服务器,讨论了系统实际的应用。实践证明,该系统
2、能够对Internet信息进行自动采集,并对今后的应用提供充分的支持,具有良好的通用性。关健侧:信息采集;信息处理;搜索引擎DesignandRealizationofaGeneralWebCrawlerWULihui,WANGBin,YUZhihua(Sot1wareDivision,InstituteofComputing'rechnology,ChineseAcademyofSciences,Beijing100080;GraduateSchoolorChineseAcademyofSciences)
3、(AbstractIThepaperintroducesthedesignandrealizationofageneralWebcrawler,presentsthewholestructureofthesystem,analyzesgather,controlanddatapublish,discussesthepracticalapplications.TheexperimentprovesthatthesystemcanautomatecrawlInternetinformationandprovid
4、esufficiencysupportforfollowinginformationapplications,andhavenicegenerality.IKeywordsIWebcrawler;Informationprocessing;Searchengine随着Internet的迅速发展与普及,网络已发展成为经务器。系统可以同时设置多个信息采集器并行采集,但只能济、社会、文化、教育以及娱乐等几乎所有领域重要组成部有一个来集控制服务器和信息发布服务器。它们(以一台采分。而WWW本身作为一个庞大的分布式异
5、构超文本文档集器为例)既可以分别安装在3台机器上,也可以两个任意组库,从1991年诞生至今,其信息容量呈爆炸性的增长。互联合安装在两台机器上,如果空间允许的话,还可以安装在一网在给人们提供丰富信息的同时,又给人们在有效使用方面台机器上,但必须通过修改监听端计号,才能使它们各自运提出了巨大挑战。随着互联网的迅速发展,各种采用新技术行‘,互不干扰。的互联网信息搜索引擎也在不断涌现,如Google.Yahoo.基于Web的信息采集技术也正日益受到人们的关注,成为一个新的研究课题。基于Web的信息采集(WebCra
6、wling),主要是指通过Web页面之间的链接关系,从WebL自动获取页面信息,并且随着链接不断向整个Web扩展的过程。哪弋羚1传统的Web信息采集的目标大都是服务于某个特定的系统。如Google,利用若干分布式的Crawler进行网页的搜取工作,采集下来的文件被存入StoreServer,在那里被压缩后送到存储库中。由索引器和排序器完成索引工作。排序器产生倒排索引。排序器还将产生一个WordlD列表,一个称为1.2信息来集器DumpLexicon的处理器将处理这个列表,同时生成一个新的信息采集器是一个网上
7、信息资源采集工具。它可自动收字典。最后检索器利用这个字典、倒排索引和PageRank值来完成检索查询要求。可见,Google的Crawler为后继的检索集Intemet上WWW站点内有效的信息,包括文本、超链接文本、图像、声音、录像、压缩等各类文档,并定期自动更新查询提供了丰富的数据源。随着互联网信息的爆炸性增长,站点内原有信息,信息采集支持自动爬行功能,可在指定范人们希望能够得到一些有特色的增值服务。而在不同的服务围内通过链接分析搜索未知站点,用户可以查看、筛选自动中,重新开发一套Web信息采集系统是耗资
8、巨大的。可见,发现的未知站点。假设一个站点是一个有向图,那么站点内有必要开发通用性更强的Web信息采集系统。的每一网页就是图中的一个结点,超文本文件中的链接就是本文所介绍的Web信息采集系统,采用信息采集器、采有向图的边。将用户输入的起始抓取页面看作是该图的根结集控制服务器和信息发布服务器三端结构,设计时充分考虑点,利用图的广度优先遍历算法采集站点。了系统的通用性。实践证明,本Webs息采集系统能够自动采集Int
此文档下载收益归作者所有