资源描述:
《分布式网络信息查询系统》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、ISSN100020054清华大学学报(自然科学版)2000年第40卷第1期34ö34CN1122223öNJTsinghuaUniv(Sci&Tech),2000,Vol.40,No.11241283分布式网络信息查询系统瞿 艳, 卢增祥, 李衍达(清华大学自动化系,北京100084)文 摘:介绍了“中国公众多媒体业务网”的分布式网络导索引擎之上的网络信息搜索工具。它根据用户的查航系统的设计方案。整个系统由多个相互独立又相互配合的询要求,启动多个集中式搜索引擎查询用户需要的子信息查询系统组成。方案采用分布式的结构,具有速度快、信息,并对
2、所有返回结果进行核查、整理、综合,而后网络带宽利用合理、安全性高等优势。提出了数据库小型化、返回给用户。本地化等设计原则。介绍了整体结构和具体模块设计。在此3)代理搜索引擎方案中,利用用户反馈成功地解决了判断用户对信息的满意[5]代理搜索引擎的出现受到了代理网络服务器程度、选择搜索引擎、更新数据库等关键问题。依赖用户的反中缓存机制的启发,它在收到用户提出的查询请求馈调整系统运行参数的做法将提高系统的服务质量。后,先在本地数据库内搜索;如果找不到用户需要关键词:分布式系统;信息查询;搜索引擎;用户反馈;因特网的信息,则再向某一个集中式的搜索
3、引擎发出请求,得到查询结果后,将结果在返回给用户的同时存入中图分类号:TP391文献标识码:A本地数据库以备下一次查询。文章编号:100020054(2000)0120124205从集中式的搜索引擎到Meta搜索引擎,再到代理搜索引擎,可以看出网络搜索引擎的发展趋势 随着因特网的发展,电子文档正以异乎寻常的是从独立运作到相互合作,从集中式到分布式,并且速度增长。InformationOverload的问题日趋严重。越来越考虑到利用用户的反馈来提高信息质量。如何快速而又准确地找到自己需要的信息成为每个“中国公众多媒体业务导航系统”采用了分
4、布式网络用户关心的问题,网络信息查询技术因此快速的结构,在每个省会建立一个子导航系统,负责维护[1,2]发展。本地网络信息,在设计中各个省市的子导航系统组为了帮助用户找到需要的信息,网络上产生了成一个覆盖中国大部分领土的导航网络。各子系统搜索引擎。它们以传统IR技术为基础,并逐渐针对之间相互协作,并可以通过用户反馈以提高服务质网络信息查询的特点,发展成为一个重要的产业,形量,调节协作关系,同时充分体现了信息服务本地化成一种新的媒体。搜索引擎按运行机制的不同可以和个性化的特点。1998年12月一期工作已经完成,分为以下几种:有10个省的服务
5、已经开通,能独立运行。协同工作1)集中式的搜索引擎即将开始。以下是分布式搜索引擎方案的详细介绍。集中式的搜索引擎通常由3部分组成:用户界面、数据库、抓取网络信息的Robot或Spider。用户1 设计准则通过用户界面查询网络信息库,Robot则帮助扩充和更新网络信息库。设计思想的核心是,通过合理的结构与运行机2)Meta搜索引擎制,使系统性能和服务质量达到最高水平。根据网络[3,4]Meta搜索引擎是一种建立于各种集中式搜信息搜索的特点和中国网络现状,并充分考虑了搜索引擎的发展趋势,提出了以下几条设计准则: 收稿日期:199920320
6、21)分布式整体结构 作者简介:瞿艳(19742),女(汉),上海,硕士研究生虽然现有的网络信息查询系统大都采取集中式3基金项目:教育部“211工程”学科建设项目的结构,但是集中式的搜索引擎在运行中逐渐暴露©1995-2006TsinghuaTongfangOpticalDiscCo.,Ltd.Allrightsreserved.瞿 艳,等: 分布式网络信息查询系统125出一些问题。首先集中式的搜索引擎不能合理地利息,这样在本地信息库内找不到的信息才有可能在用网络带宽。它既要为大量用户提供查询服务,又要其他信息库内找到。因此,各子系统拥
7、有的信息不应随时对大量的数据进行更新,这将形成网络瓶颈。其当千篇一律,而是应该具有自己的特色。这就是所谓次所有用户查询一个中心数据库,会给系统带来很的信息本地化或特色化。大负担。集中式系统还存在安全性、可靠性的问题。首先正如2)中提到的,每个网络信息库都应该而且从中国的网络现状出发,如果用户接入点存放本地用户经常查询的信息。本系统利用用户对与系统之间的空间距离太大(带宽较窄),将降低查信息质量的反馈,来随时调整信息库内的信息,使其询速度。同时如果查询系统与信息源不能通畅连接,与用户的需求一致。其次,还要求各子系统收集并管将无法进行有效的信
8、息索引和管理。理在所在省市的网络信息。这样,用户不仅能方便地为了解决以上问题,选用了分布式的系统结构,查询当地的信息,也可以通过各个子系统之间的合各省市拥有自己的子系统。每个子系统拥有一个搜作