分布式并行信息检索相关技术研究

分布式并行信息检索相关技术研究

ID:42596422

大小:92.20 KB

页数:7页

时间:2019-09-18

分布式并行信息检索相关技术研究_第1页
分布式并行信息检索相关技术研究_第2页
分布式并行信息检索相关技术研究_第3页
分布式并行信息检索相关技术研究_第4页
分布式并行信息检索相关技术研究_第5页
资源描述:

《分布式并行信息检索相关技术研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、分布式并行信息检索相关技术研究张青峰南开大学信息技术科学学院天津300071摘要当今社会,爆炸性增长的网络信息不但给用户提供了丰富的知识来源,同时也给检索系统带来了巨大的挑战。并行技术和分布式技术是解决这种大规模信息检索问题的关键技术,分布式并行信息检索是分布式并行计算技术在信息检索领域的应用。本文介绍了并行检索技术和分布式检索技术的基本概念、原理和方法,并对信息检索中的查询性能预测进行了介绍,主要论述了查询性能预测的主要方法和关键技术,最后讨论了分布式并行信息检索面临的一些挑战,并对未来的研究工作进行了展望和分析。关键字信息检索,并行检索,分布式检索,查询性能预测1引言当今

2、社会,爆炸性增长的网络信息不但给用户提供了丰富的知识来源,同时也给检索系统带来了巨大的挑战。在信息爆炸的大数据时代,搜索引擎索引页面通常能够达到几十亿个到上百亿个,虽然单台计算机的处理能力不断提高,但是要对大规模海量的信息数据进行检索,单台计算机的处理能力毕竟有限,传统的基于单机的集中式信息检索技术已无法满足这种以大规模数据集为基础的并发多用户信息检索的需求,因此特别需要多台计算机进行“团队作战”。而并行计算和分布式计算能够利用多台计算机或者多个处理器的计算或存储资源来解决大规模数据问题。因此,很自然地会想到将并行处理或者分布式处理技术引入到信息检索当中,由此产生了分布式并行

3、信息检索技术。分布式并行信息检索是分布式并行计算技术在信息检索领域的应用,是计算机技术与网络通讯技术的有机结合,它将分散的计算机资源统一整合,以发挥集群优势为目标,实现高速网络环境下的快速信息检索。在大规模数据检索中,并行处理具有较大的潜力可以挖掘,利用分布式系统,可以实现多条查询之间的并行检索以及单条查询内部的并行处理,由此提高整个系统的检索效率。本文的组织如下:第二节介绍并行计算、并行检索的基本概念、原理、方法和相关的进展;第三节介绍分布式计算、分布式检索的基本概念、原理、方法和相关进展;第四接介绍了信息检索性能预测相关方法;最后是对未来研究方向进行展望和分析。2并行检索

4、2.1并行计算并行计算指的是,将单个问题划分为多个较小的“子”问题,用多个处理器同时分别处理这些“子”问题来得到单个问题的解。显然,由于并行计算能够同时利用多个处理器资源,所以通常能够减少问题求解的总时间,从而解决大规模的问题。多个可以同时工作的处理部件或处理器构成的计算机系统,称为并行计算机。并行计算系统包括并行计算机或多处理机系统。在并行计算系统中,不同处理器同时运行多个程序或者一个程序的不同进程,从而提高系统的运算速度。并行计算通过“以成本换时间”的方式来减少求解问题的总时间。总时间取决于时间最长的那个“部分”问题的求解。通过并行计算,系统具有较好的可伸缩性。根据指令和

5、数据流的数目不同,并行计算的体系结构通常可以分成SISD、SIMD、MISD、MIMD等四种类型。其中MIMD是现在最通用和使用最广泛的一种类型。后面提到的并行检索也主要基于这种体系结构。MIMD并行体系结构主要由多个具有自己的控制单元、处理单元和局部内存的多个处理器组成,多个处理器之间通过共享内存或者通信网络相连接(图中以粗黑线表示)。MIMD可以处理互相独立的多个任务或者协同执行同一个任务。MIMD体系结构中,如果处理器之间交互通讯频繁,则称为紧耦合(tightlycoupled)系统;反之,则称为松耦合(looselycoupled)系统。1.1并行检索要实现并行检索,

6、首先让我们考察信息检索的一般过程:如图所示,用户提交一条查询,代理程序(broker)对原始查询进行处理(如查询的分析转换或格式化处理等等),然后将处理后的查询发给搜索程序,搜索程序找到结果并进行处理(如排序)后返回给代理,代理经过必要的处理(如结果的归整、合并等)将结果返回给用户。从以上可以看出,信息检索有并行处理的潜力可以充分挖掘。根据对象的不同,并行检索总体上可通过以下两种方式实现并行:1.多条查询之间的并行处理。一个最自然的想法就是利用MIMD结构对多条查询的处理并行化,即每个处理器处理不同的查询,每个查询的处理之间相互独立,最多只对共享内存内的部分代码或者公有数据实

7、行共享。这种方法也称为任务级的并行检索。它可以同时处理多个查询请求,从而提高检索的吞吐量。上图显示了3条不同查询在3个处理器上的并行处理过程。每条查询通过代理(也可同时运行多个代理程序,每个代理分别处理一条查询)发送到不同搜索程序(每个处理器上运行一个搜索程序)上去执行,每个搜索程序的结果通过代理返回到不同查询的发起者。如果MIMD由多台具有自身处理器和磁盘的计算机组成,每台机器执行自己的搜索程序,并且只访问本地的磁盘,则没有硬件资源访问冲突问题。但如果多个搜索程序访问的是相同的磁盘资源,则可能存在磁盘

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。