海量web 信息搜集系统优化设计

海量web 信息搜集系统优化设计

ID:34481746

大小:346.49 KB

页数:20页

时间:2019-03-06

海量web 信息搜集系统优化设计_第1页
海量web 信息搜集系统优化设计_第2页
海量web 信息搜集系统优化设计_第3页
海量web 信息搜集系统优化设计_第4页
海量web 信息搜集系统优化设计_第5页
资源描述:

《海量web 信息搜集系统优化设计》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、海量Web信息搜集系统优化设计1论文摘要本文首先由WWW的起源和发展导出搜索引擎技术的出现和发展。北大天网是这类技术在中国的最早的成功产品之一,本文将大体介绍其体系结构和技术特点。搜集端(crawler)是天网的主要模块之一,它的搜索速度、获取网页质量是评价搜索引擎好坏的主要指标,是检索端的工作的基石。如何更快,更好的抓取网页是本人毕业设计的工作目标。在介绍完搜集端现有的体系结构之后,本文从搜索导向、相似网页、相关度权值给定三个方面阐述它的优化策略,作为本文的重点。最后,本文试图指出现有系统的处理能力极限和瓶颈,并在此基础上作新的体系结构的探讨。关键词:搜索导向,r

2、eplicas-finding,crawler,URLordering2第一章背景介绍§1.1WWW的起源和发展WWW(WorldWideWeb)起源于1989年欧洲粒子物理研究室(CERN)。WWW的最初计划是由CERN的物理学家TimBerners-Lee于1989年3月提出的,第一个原型(基于文本)于18个月后运行。WWW的核心技术是超文本和超媒体。通过将文本、图形、图象、音频、视频等信息的有机结合,给人们提供了丰富的信息表示空间。在十多年的时间里,WWW的信息容量巨增,根据NEC研究院在《自然》上发布的数据[3],截止到1999年2月,Internet上共有

3、网站16.0M个,其中公开提供WWW服务的网站280万个;共有WWW网页大约8亿页,这些网页包含了15T字节的数据。按照2000年4月在波士顿举行的第5届搜索引擎年会的会议报告[4],我们可以知道现今的网页数目已经超过了10亿页。WWW在1994年登陆中国,在到现在仅仅6年的时间里发展速度惊人。根据CNNIC(中国互联网络信息中心)在2000年1月的统计信息表明[5],中国已有上网计算机350万台,其中WWW站点15153个;上网人数890万。关于网页的数目没有具体的统计数据,但根据《科学》杂志上提供的集合估计法[2],通过中国几个主要搜索引擎获得的搜索数据(天网、

4、新浪、搜狐、网易),我们可以估计到当前中国拥有的网页数已经超过1000万页。§1.2搜索引擎的出现和发展面对浩瀚的WWW信息资源,用户在感到进入信息社会的兴奋之后,立刻觉得不知所措,太多的信息使我们很难迅速定位我们真正需要的信息,而跟随超链在WWW上漫游则会浪费大量的时间,而且很可能徒劳无功。因此,人们迫切需要有效的信息发现工具来为他们在WWW上进行导航。在1994年,第一代搜索引擎出现了,例如Lycos,Infoseek,AltaVista和Exite。这时,它们还处在研究阶段,数据量少,检索速度慢是它们的突出缺点。最近这几年里,搜索引擎技术有突飞猛进的发展,出现

5、了AltaVista,Inktomi,Google,Inktomi的DirectoryEngine,Inktomi,FAST,NorthernLight等成熟的搜索引擎产品,它们日趋变的好用,成为WWW用户必不可少的工具之一。“北大天网(Webgather)”是CERNET在“九五”攻关项目“计算机信息网络及其应用关键技术研究”中设立了“中文编码和分布式中英文信息发现”子专题,北京大学网络研究室承担了该子专题的部分研究开发工作,设计开发了“天网”中英文搜索引擎(WebGather)[3]。1997年10月29日,天网搜索引擎正式在CERNET上提供查询服务。《软件世

6、界》(1998年7月)将天网评为国内最值得关注的搜索引擎,1998年12月,天网通过了CERNET的鉴定。之后,天网又进行了大量的技术创新和系统的完善。到目前为止,天网总访问量已经突破5,000,000,并且仍以每天大于30,000的访问量递增。3第二章系统概述§2.1“天网”体系结构简介internet检索端检索数据库搜集搜集端数据库分析器图2.1搜索引擎总框架“天网搜索引擎”由两个主要部分组成,分别是搜索端和检索端[refer]。搜索端从WWW上抓取网页,经过分析提取出必要的信息存放到数据库中去(天网目图2.2搜集端结构前使用的是informix数据库),当数据

7、库完成一次更新后检索端便可依据数据库4中存放的信息对用户的检索请求做出答复了,也就是把用户想要的网页例出。从检索的效率上考虑(数据库往往把功能作得很完善,我们宁可扔掉一部分于我们无用的功能,来换取高速的读取),搜集端不是直接从informix数据库中读取信息,而是从由数据库生成的中间文件中读取信息的。结构如图2.1。本文讨论的搜集端的各部分组件及其功能如图2.2。搜集端按如下方式工作,先由主控启动多个gather进程,并给它们逐一分配一个网上的URL,由它们负责去网上抓取网页。Gather对取得的网页进行分析,把结果送给主控,由主控对数据库进行操作,主控可以从g

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。