“天网”高性能分布式检索系统设计与实现

“天网”高性能分布式检索系统设计与实现

ID:15313901

大小:30.00 KB

页数:3页

时间:2018-08-02

“天网”高性能分布式检索系统设计与实现_第1页
“天网”高性能分布式检索系统设计与实现_第2页
“天网”高性能分布式检索系统设计与实现_第3页
资源描述:

《“天网”高性能分布式检索系统设计与实现》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、“天网”高性能分布式检索系统的设计与实现赵江华(硕士论文,2002)摘要随着社会信息化的飞速发展,信息资源呈现爆炸式增长,信息系统的规模和复杂程度在不断扩大,人们必须能够存储、处理和使用各种海量的数字化信息。信息检索技术可以实现按内容检索结构化和非结构化数据,被认为是解决信息过剩的有效途径,有着极其重要的意义。搜索引擎和数字图书馆作为信息检索最重要的两个应用,已经产生了巨大社会的效益,其影响日益广泛。本文以“天网”搜索引擎为应用背景,首先介绍信息检索系统的各种基本问题,然后深入讨论在单机系统中与系统性能相关的几个因素和提高检索效率的策略,试图用定量的

2、方法描述检索系统中计算机硬件、数据规模等因素和性能之间的关系。为了克服单机系统所固有的限制,我们设计和实现了“天网”的分布式检索系统版本,保证了“天网”在维护上千万网页信息的情况下仍然能够提供秒级的查询响应,文中对此做了详细介绍。进一步的系统模拟试验表明:分布式情况下系统的瓶颈不是网络带宽,而是每个节点的检索并发性能。进而,随着“天网”系统并行化的完成,参与运行的机器数量不断增长,我们感到对它本身的管理成为制约其进一步发展的重要因素。系统管理问题在计算机技术中存在已久,它在经济和技术上的重要性逐渐被人们所认识到。由于信息技术在社会中的深入应用和普及,

3、加之硬件和软件愈来愈复杂,可靠性和可维护性都难以保证,系统管理逐渐成为制约信息系统发展的瓶颈。本文从传统的系统管理基本问题出发,结合网格计算和自动计算的方法和概念,提出了一种整体的解决方案,并且根据“天网”系统管理的需求,对今后发展给出了两个探索性研究建议。关键词:信息检索,搜索引擎,倒排文件,分布式系统,并行,系统管理,网格计算,自动计算iiiAbstractWithhigh-speedadvancesininformationspaces,informationresourcesareincreasingexplosivelyalongwitht

4、hescaleandcomplexityoftheinformationsystems.Thereisagreatneedforstoring,processingandimplementingvariousaspectsofdigitalinformation.Unlikecommondatabasetechnology,InformationRetrieval(IR)canassistusersinfindingusefulinformationfromstructuredandunstructureddata,whichisconsidered

5、aneffectivewayofpreventinginformationoverload.TwoimportantapplicationsofIR,SearchEngineandDigitalLibrary,haveproducedmanybenefitstosocietyandtheyarewieldinganever-increasinginfluence.ThefundamentalproblemsofanInformationRetrievalSystemwillbeintroducedfirst.“WebGather”SearchEngi

6、newillbeutilizedasabackgroundforapplicationinthisthesis.Then,wewilldetailsomefactorsrelevanttosystemperformance(suchascomputerhardware,datascales,etc)andmethodsofimprovingretrievalefficiency,tryingtoquantitativelydescribetherelationsbetweenthesefactorsandperformance.Inordertoov

7、ercomethebuilt-inlimitationofasinglecomputersystem,wewilldesignandimplementadistributedretrievalsystemof“WebGather”thatretrievesqueryresponsesinlessthanasecondwhileindexingtensofmillionsofwebpages.Asystemevaluationofitshowsthattothisdistributedsystemtheperformancebottlenecksdon

8、otlieinnetworkbandwidthbutintheconcurrentretrievalperf

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。