资源描述:
《分布式并行信息检索系统的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、随着社会信息化程度的不断提高,很多系统面临从人规模数据集屮快速检索信息的需求。传统的基于单机的集中式信息检索技术已无法满足这种以大规模数据集为基础的并发多用户信息检索的需求。利用高速网络坏境,开发分布式并行信息检索系统,使多台低端服务器或PC机协同工作,共同承担信息检索任务,不失为一种既经济又高效的解决方案[1,2]o本文以基础教育资源搜索引擎(BasicEducationalResourcesSearchEngine,BERSE)系统为例,探讨分布式并行信息检索系统的设计与实现技术。1系统模型与主要
2、算法1.1设计思想BERSE是南京师范大学教育科学学院设计开发的一个面向棊础教育领域的专业搜索引擎,该系统中涉及的数据最庞人,数据变化频繁,用户对系统的响应时间要求较高。为了能实现信息的快速检索,同时乂不用大规模地增加系统成本,笔者选择了基于低端服务器或PC机群的分布式并行信息检索系统设计方案[3]O分布式并行信息检索系统是分布式并行计算技术在信息检索领域的应用,是计算机技术与网络通讯技术的有机结合,它将分散的计算机资源统一整合,以发挥集群优势为目标,实现高速网络环境下的快速信息检索。在大规模数据检索
3、中,并行处理具有较人的潜力可以挖掘,利用分布式系统,可以实现多条查询Z间的并行检索以及单条查询内部的并行处理,由此捉高整个系统的效率[1,2,4]O为此,在BERSE中,南京师范大学教育科学学院将海量数据域进行分段,然后分布在多个查询节点上;对于复杂的查询进行合理分解,以便在不同的数据段上并行检索;对来自多个查询节点的查询结果通过合并处理最后反馈给用八。同时,还需考虑当网页采集量发牛•较大变化时,系统能够快速灵活地对数据域重新分段,必要时能够方便地扩充新的查询节点。1.2检索模型当前,并行计算结构主要
4、分为完全共享结构(SharedEverything,SE)^共享主存储器结构(SharedMemory,SM)、共亨磁盘结构(SharedDisk,SD)和无共亨资源结构(SharedNothing,SN)等4种,其中,SN结构被公认为是支持并行信息检索较好的结构,它貝有资源竞争干扰最小、高扩充性等优势[4,5]O分布式并行信息检索系统是一种典型的SN结构,它通过杏询代理(QueryAgent,QA)收集用八的检索请求,然后将查询任务分配到多个搜索器(Searcher)并行完成查询任务。在BERSE屮
5、,检索功能分为前台服务了系统和示台数据检索子系统两部分。前台服务子系统承担查询代理,它响应用户的信息检索请求;后台处理子系统承担具体的检索任务,由文档服务器(DocumentServer,DS)^索引服务器(IndexServer,IS)和若干査询节点(QueryNode,QN)构成,它们通过T•兆交换机组成高速局域网,如图1所示:系统的工作流程为:初始化吋,各个QN根据数据域的分段信息,从IS中读取属于自己的数据段并完成数据的分布;QA收到查询请求时,将查询任务分解为多个子查询,并进行形式化处理,然
6、后向QN分配任务;QN收到查询任务后实施查询,并将查询结果回送给QA;QA对查询结果进行排序,并选取前面若干条记录,根据文档编号(DocID)从DS中提取文档,最后牛成检索页血反馈给用户,至此完成一次查询任务。1.3主要算法(1)数据域的划分在分布式并行检索系统中,数据域的划分关系到系统的查询性能、扩展性及易维护性等。目前,数据划分方法主要有两大类:一维数据划分和多维数据划分。其中,一维数据划分是根据数据的某个属性的值来划分整个数据,这种方法简单明确,容易实现。一维数据划分方法主要有Round-Rob
7、in划分法、Hash划分法、Rang划分法和Hybrid-Rang划分法等4种[4,6]o本文参考了Hybrid・Rang并结合BERSE系统的特点,用“伦转”算法实现了数据域的划分。在BERSE中,标引数据被集中存放在IS中,其词条编号(TermID)对应于诃典(Lexicon)中的词条编号,诃典屮同吋包含QN编号(NodeID),如图2所示。数据域的划分是通过对词典屮的NodeID写标记来实现的。数据标记后,QN初始化时在词典中查找各自的NodeID,然后根据对应关系从IS中读取数据,并转存在本机
8、,从而完成数据段的分布。这样设计的优点有:如果需要对数据段重新调整,只需根据算法改写词典中的NodeID字段,并通知相关QN重新初始化即可快速完成。LexiconTermIDTermNodeIDCount1ndexerTermIDDocIDHits图2BERSE中的数据域分布示意图数据域的划分是基于词条的杳询频率与数据量两个因素考虑的。首先,按查询频率对词典屮的词条降序排列撚后对前85%(lit比例为经典比例)的词条按下述算法轮转分配No2deID:①按