海量web 信息搜集系统优化设计

ID：34481746

大小：346.49 KB

页数：20页

时间：2019-03-06

资源描述：

《海量web 信息搜集系统优化设计》由会员上传分享，免费在线阅读，更多相关内容在教育资源-天天文库。

1、海量Web信息搜集系统优化设计1论文摘要本文首先由WWW的起源和发展导出搜索引擎技术的出现和发展。北大天网是这类技术在中国的最早的成功产品之一，本文将大体介绍其体系结构和技术特点。搜集端（crawler）是天网的主要模块之一，它的搜索速度、获取网页质量是评价搜索引擎好坏的主要指标，是检索端的工作的基石。如何更快，更好的抓取网页是本人毕业设计的工作目标。在介绍完搜集端现有的体系结构之后，本文从搜索导向、相似网页、相关度权值给定三个方面阐述它的优化策略，作为本文的重点。最后，本文试图指出现有系统的处理能力极限和瓶颈，并在此基础上作新的体系结构的探讨。关键词：搜索导向，r

2、eplicas-finding,crawler,URLordering2第一章背景介绍§1.1WWW的起源和发展WWW（WorldWideWeb）起源于1989年欧洲粒子物理研究室(CERN)。WWW的最初计划是由CERN的物理学家TimBerners-Lee于1989年3月提出的，第一个原型（基于文本）于18个月后运行。WWW的核心技术是超文本和超媒体。通过将文本、图形、图象、音频、视频等信息的有机结合，给人们提供了丰富的信息表示空间。在十多年的时间里，WWW的信息容量巨增，根据NEC研究院在《自然》上发布的数据[3]，截止到1999年2月，Internet上共有

3、网站16.0M个，其中公开提供WWW服务的网站280万个；共有WWW网页大约8亿页，这些网页包含了15T字节的数据。按照2000年4月在波士顿举行的第5届搜索引擎年会的会议报告[4]，我们可以知道现今的网页数目已经超过了10亿页。WWW在1994年登陆中国，在到现在仅仅6年的时间里发展速度惊人。根据CNNIC(中国互联网络信息中心)在2000年1月的统计信息表明[5]，中国已有上网计算机350万台，其中WWW站点15153个；上网人数890万。关于网页的数目没有具体的统计数据，但根据《科学》杂志上提供的集合估计法[2]，通过中国几个主要搜索引擎获得的搜索数据（天网、

4、新浪、搜狐、网易），我们可以估计到当前中国拥有的网页数已经超过1000万页。§1.2搜索引擎的出现和发展面对浩瀚的WWW信息资源，用户在感到进入信息社会的兴奋之后，立刻觉得不知所措，太多的信息使我们很难迅速定位我们真正需要的信息，而跟随超链在WWW上漫游则会浪费大量的时间，而且很可能徒劳无功。因此，人们迫切需要有效的信息发现工具来为他们在WWW上进行导航。在1994年，第一代搜索引擎出现了，例如Lycos,Infoseek,AltaVista和Exite。这时，它们还处在研究阶段，数据量少，检索速度慢是它们的突出缺点。最近这几年里，搜索引擎技术有突飞猛进的发展，出现

5、了AltaVista，Inktomi，Google，Inktomi的DirectoryEngine，Inktomi,FAST,NorthernLight等成熟的搜索引擎产品，它们日趋变的好用，成为WWW用户必不可少的工具之一。“北大天网(Webgather)”是CERNET在“九五”攻关项目“计算机信息网络及其应用关键技术研究”中设立了“中文编码和分布式中英文信息发现”子专题，北京大学网络研究室承担了该子专题的部分研究开发工作，设计开发了“天网”中英文搜索引擎（WebGather）[3]。1997年10月29日，天网搜索引擎正式在CERNET上提供查询服务。《软件世

6、界》（1998年7月）将天网评为国内最值得关注的搜索引擎，1998年12月，天网通过了CERNET的鉴定。之后，天网又进行了大量的技术创新和系统的完善。到目前为止，天网总访问量已经突破5,000,000，并且仍以每天大于30,000的访问量递增。3第二章系统概述§2.1“天网”体系结构简介internet检索端检索数据库搜集搜集端数据库分析器图2.1搜索引擎总框架“天网搜索引擎”由两个主要部分组成,分别是搜索端和检索端[refer]。搜索端从WWW上抓取网页，经过分析提取出必要的信息存放到数据库中去（天网目图2.2搜集端结构前使用的是informix数据库），当数据

7、库完成一次更新后检索端便可依据数据库4中存放的信息对用户的检索请求做出答复了，也就是把用户想要的网页例出。从检索的效率上考虑（数据库往往把功能作得很完善，我们宁可扔掉一部分于我们无用的功能，来换取高速的读取），搜集端不是直接从informix数据库中读取信息，而是从由数据库生成的中间文件中读取信息的。结构如图2.1。本文讨论的搜集端的各部分组件及其功能如图2.2。搜集端按如下方式工作，先由主控启动多个gather进程,并给它们逐一分配一个网上的URL,由它们负责去网上抓取网页。Gather对取得的网页进行分析，把结果送给主控，由主控对数据库进行操作，主控可以从g

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 20



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

海量web 信息搜集系统优化设计

海量web 信息搜集系统优化设计

相关文章

相关标签