adaptive distributed data stream management system论文

adaptive distributed data stream management system论文

ID:34821933

大小:10.91 MB

页数:149页

时间:2019-03-11

adaptive distributed data stream management system论文_第1页
adaptive distributed data stream management system论文_第2页
adaptive distributed data stream management system论文_第3页
adaptive distributed data stream management system论文_第4页
adaptive distributed data stream management system论文_第5页
资源描述:

《adaptive distributed data stream management system论文》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、中南大学博士学位论文AdaptiveDistributedDataStreamManagementSystem姓名:MahmooudSamiSloiman申请学位级别:博士专业:计算机应用技术指导教师:谭冠政20101209摘要传感器网络是一种无线网络,它们广泛应用于环境监控、目标跟踪、建筑物安全监测、农业精细化耕种、活火山监测、运输业监控、人类活动监控以及其他监控领域。传感器网络的数据,其表现形式与传统的数据源完全不同,它们成倍连续地传送,是一种快速、时变、不确定、无限的数据流,而且跟历史信息无关。在数据流模型中,某些或全部需要被操作的输入数据并不是

2、通过随机访问硬盘或内存得到的,它们是以一个或多个连续的数据流形式达到的。数据流在几个方面与常规的存储关系模型不同。对于数据流来说,随机访问特定数据是不允许的。数据流中的各数据元素是在线达到的,系统并不对来自于一个或几个数据流源的各数据元素达到的顺序进行控制。数据流在规模上有可能是无限大的。当数据流中一个数据元素被处理完毕,它就会被丢弃或存档。除非被存放到存储器中,否则被处理过的数据元素不容易被取回。相比于数据流的规模,显然存储器的容量是非常小的。传统的数据库管理系统及其改进版本都无法适应对传感器网络数据流的有效管理。为此,需要建立一种全新的数据流管理系

3、统(DataS仃e锄ingMallagementSysten卜DSMS),以便处理数据流并可对数据流进行动态、持续的查询操作。传统的数据库系统并不是设计用来处理时间紧急的一类应用问题,它们也缺乏支持实时处理或实时交易所需要的特征。而且,传统的数据库管理系统也不是设计用来连续且快速地载入个体数据项,它们不能直接支持连续的数据查询,而这恰好是数据流应用的典型特征。此外,在对高速数据流进行查询和其它处理(如数据分析和数据挖掘)时,重点关注的是查询结果的近似准确性和查询过程的自适应性;而传统的数据库管理系统关注的重点则是由稳定的查询计划所计算出的精准答案。如果

4、用于对数据流进行复杂且大量的持续查询,传统的数据库系统及其数据处理算法在功能上是不能满足要求的,面对这样的应用问题其数据管理和数据处理方法在很多方面都需要被重新考虑。摘要在本文中,针对成倍、连续、高速以及时变的数据流,我们研究了数据管理及查询处理的相关问题,将研究重点集中在称为数据流管理系统这种新出现的数据库管理系统技术上。与传统的数据库管理系统相比,数据流管理系统能够对实时进入和实时离开系统的连续数据流进行持续的查询,数据仅存放在主存储器上以便处理。这种数据流可以是传感器数据、证券市场数据或网络数据流等。在数据库管理系统领域,一直以来一个重要的挑战就

5、是如何最优地利用资源以使系统的性能达到最佳,同时兼顾、平衡其它因素,如数据的可恢复性和可靠性。数据流管理系统也具有这些特征,但它们常常有着不同的侧重点。数据流管理系统涉及的是推送式数据源(Push-basedSourCes),这种数据源常常通过在系统中登记过的持续查询输入数据流。一般来说,查询结果的有效性往往取决于结果产生的速度。这意味着极小化延时和极大化数据流通量是极为重要的,所以希望能够将CPU执行时间和内存使用量降到最小。有很多相关技术可以用来达到这些目的,如删除不重要的元组以降低系统的负载(负载剥离),对算子的排序进行最优调度以减少系统所需要的

6、元组数量,等等。在这些技术中,有很多种(如负载剥离)会大大影响查询的准确度,从本质上来说也就改变了查询的原意。因此,有必要研究更准确的查询技术以及系统性能评价标准,兼顾性能和准确度两者之间的平衡,并确保查询达到一定程度的准确性。在本文中,我们提出了一个自适应分布式数据流管理系统(Ad印tiveDistributedDataS仃eanlillgManagementSystem-ADDSMS)的框架,该系统是一个数据流控制接口,它运行于分布式数据流资源阵列与需要访问和分析这些数据流的终端客户之间。整个框架提供了一种数据流管理和数据流查询处理的机制,可为分布

7、式传感器网络数据流的在线获取、管理、处理、存储以及融合提供支持。所提出的自适应分布式数据流管理系统由三个主要模块组成:系统管理模块,数据封装模块以及查询处理器模块。这种系统结构为数据流的处理提供了一种分布式方案。系统管理模块由三部分组成,包括数据流与查询登记,查询优化器以及查询分配管理器。其中,最重要的是查询分配管理器,它采用优化过的查询和费用模型作为图形分配器的输入。图形分配器被用来聚类在已知数量聚类中的各图形节点,这些聚类代表查询执行节点(即查询处理器模块)。以输入数据流的特征和操作算子的费用模型摘要为基础,可以计算出各操作算子的开销。查询分配器具

8、有自适应性,它可以每隔一定周期自动执行查询分配指令。当输入数据流的特征改变时,查询分配器也会即

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。