web信息采集技术研究与发展

web信息采集技术研究与发展

ID:34606742

大小:281.21 KB

页数:5页

时间:2019-03-08

web信息采集技术研究与发展_第1页
web信息采集技术研究与发展_第2页
web信息采集技术研究与发展_第3页
web信息采集技术研究与发展_第4页
web信息采集技术研究与发展_第5页
资源描述:

《web信息采集技术研究与发展》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第27卷第12期Vol.27,No.12情报科学2009年12月December,2009·综述·Web信息采集技术研究与发展庞景安(中国科学技术信息研究所,北京100038)摘要:本文对Web信息采集技术的重要研究以及发展趋势给予了简要述评。主要内容包括:基于整个Web的信息采集,增量式Web信息采集,面向主题的Web信息采集,个性化的Web信息采集,分布式Web信息采集,基于Agent的信息采集,迁移的信息采集,以及基于元搜索的信息采集等。关键词:Web信息采集;信息采集技术;搜索引擎;网络计

2、量学中图分类号:G354文献标识码:A文章编号:1007-7634(2009)12-1891-05ResearchandDevelopmentofWebInformationCollectionPangJing-An(InstituteofScientificandTechnicalInformationofChina,Beijing100038,China)Abstract:Thispapermakesbriefreviewfortheimportantresearchesanddevelopi

3、ngtrendsofWebinformationcollection.Maincontentsinclude:scalableWebcrawling,incrementalWebcrawling,focusedWebcrawling,customizedWebcrawling,distributedWebcrawling,agentbasedcrawling,relocatableWebcrawler,aswellasmetaWebcrawler.Keyword:webinformationcol

4、lection;informationcollectingtechnology;searchengine;webometrics随着网络应用的深化和技术的发展,Web正由Web的信息采集。这种信息采集主要是用于门户站以搜索引擎为主的单纯检索服务向着信息转播、个点搜索引擎和大型的Web服务提供商的信息采集。人代理、个性化主动服务等领域全方位拓展。作为这特别适合搜索意义广泛的专题,几乎每一个检索词些服务系统的重要基础和支撑,Web信息采集的任都能搜索出一些相关的结果,因此具有很强的实际务也越来越艰巨,

5、被广泛应用于搜索引擎检索、站点应用需求。结构分析、页面有效性分析、Web图进化、内容安全由于这种信息采集的目标是整个Web,采集范检测、用户兴趣挖掘,以及个性化信息获取等多种服围和数量非常巨大,因此对采集速度和存储空间要务和研究当中。本文将对Web信息采集技术的最新求很高,而对采集页面的顺序要求相对较低。同时,研究进展以及发展趋势给予简要的述评。由于这种信息采集一般并行的采集器数量较多,所以还要重点解决诸如URL分配、重复URL消除,以1基于整个Web的信息采集及全局URL质量计算等关键问题。由美

6、国Stanford大学开发完成的Google这种信息采集技术在国外被称为ScalableWebCrawler是一个分布式的,基于整个Web的信息采【1】Crawling。主要是指从一些种子URL扩充到整个集器。Google并没有采用多线程技术,而是采用异收稿日期:2009-04-25基金项目:2008年度国家社会科学基金资助项(08BTQ030)作者简介:庞景安(1950-),男,山西人,研究生,中国科学技术信息研究所研究员,从事信息资源管理、科学计量学等研究.1892情报科学27卷步I/O管理事

7、件来实现并行。Google设计了一个专采集器在需要的时候仅对新产生的或者已经发生变门的URLServer,为并行的多个采集器维护其URL化了的页面进行采集,而对于没有变化的页面不再队列。为了保持高速的获取页面,每个采集器一次同重新进行采集。时打开大约300个连接。在使用4个采集器时,系统与周期性信息采集相比,增量式信息采集可以的峰值速度大约是每秒100页,这相当于每秒大约极大地减小数据的采集量,进而极大地减小采集的获取600k的数据。时空开销。因此,增量式信息采集成为Google、Mer-为了避免

8、了由于目标站点服务器通信慢而带来cator、InternetArchive等大型搜索系统的首选和研的低效率以及对目标站点服务器造成的过高负载。究热点。但是,由于Web信息资源的动态性、异构性GoogleCrawler将待采集的URL,在根据URL所在和复杂性,如何判断某个页面是否发生变化,使得增站点服务器IP地址进行哈希函数计算以后,放到设量式信息采集算法的复杂性和难度大大增加。同时,计好的500个待采集队列中。这样,从同一站点服务如何根据页面的变化快慢分配系统的采集能力,提器来的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。