流数据基本概念

流数据基本概念

ID:39572879

大小:73.50 KB

页数:3页

时间:2019-07-06

流数据基本概念_第1页
流数据基本概念_第2页
流数据基本概念_第3页
资源描述:

《流数据基本概念》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、1.1应用背景。需求:过去的网络服务提供商主要用传统的网络流量监控方法,就是采用离线分析,即先保存,在对其进行数据挖掘等处理。但实际中的一些需求是:用户要知道当前网络中的流量现状。进而根据当前状况采取可以提高服务性能的有利措施或者对有害行为进行预警等。而要在监控对象是实时、大量流数据的前提下,实现以上的需求,传统的方法是不合适的。有类似流数据应用需求的例子是很多的:从通信领域的电话记录数据流到各类传感器的检测数据流,从金融领域的证券数据流到卫星传回的图像数据流都是应用实例。正式因为这些实际应用背景,对流数据的研究便随之产生。流数据这个概念,是98年,由几个学者在一篇叫Computi

2、ngOnStream的论文中首次提出。此后,“流数据”就成为了VLDB,SIGMOD等几个大型数据库会议中的高频词。由此我们看到它的产生历程:应用需求—>正式提出(98)—>研究热点(至今)1.2流数据应用特点1.2.1.数据处理模型从一附图来看,用户是从操作性数据库中获得结果,要么就是从以DW为基础生成的ODS数据库中获得结果。我们知道ods数据库中存储就是概要数据结构的一些集合。简单回顾下,概要数据结构的概念:它是一种聚集形式的信息,代表了多个操作型记录。如果DW中记录了的一个顾客的交易记录,那么ods数据库中的概要记录是描绘这个的顾客的消费档次,支付习惯等等一些经过聚集,分析

3、,处理后的结果。这里流数据处理模型和传统模型虽然概念是相同的,但是他们又有很大的区别:来自与DW,是离线状态生成的,非实时;来自于实时的数据流。ods数据库存储与磁盘或磁带;流数据中的概要数据集存储在常驻内存中。1.2.2.流数据应用中处理的是实时到达的数据序列。意思就是说:这些应用随时间的变化不断有新数据产生可以看作时序数据。1.2.3.数据到达次序独立不受应用系统控制。Eg:企业可以设置要进入db/dw的连锁店a、连锁店b的数据次序,可能是出于某种优化考虑。但我们不可以改变张三,李四连续的分别的买了100手股票a,1000手股票b的顺序。1.2.4.数据规模大,理论上是无限的E

4、g:例如用于环境检测的传感器来说,在环境中一直采集数据。外部环境参数的值是无限的,它随着时间数据量不断增加。1.2.5.对数据的查询是连续的。Eg:看一个股票软件的交易界面就可以发现,用户虽然没有再次查询这支股票的价格但是会发现它是实时更新的。这个查询是连续的。传统的查询处理:用户主动,系统被动流数据的查询处理:系统主动,用户被动1.2.6查询是实时的,可以接受近似的查询结果。以上就是流数据应用的特点,由此我们可以归纳得到流数据的形式化定义:是指一组数据项的序列,x1,x2.......xn........,这些数据项按下标递增的顺序排列。他们按照固定的顺序,以连续,快速,随时间变

5、化的,可能是不可预测和无限的方式到达。2.1DSMS体系结构现在流数据的应用特点以及定义已经介绍完了。接下来,要讲的是具体应用中,使用的DSMS体系结构的一般模型。它与普通dbms的区别由前面讲的流数据应用中的处理模型特点和DSMS体系结构,我们可以看到,他们都有一个非常重要的模块:概要数据结构。下面将要介绍的就是概要结构的维护2.2概要数据结构的维护2.2.1Why:首先考虑一个问题就是why要使用概要数据结构。这是由于概要数据结构实质上是也是一种有效管理大量数据的方法。加之流数据有,实时、大量、源源不断的进入应用系统,这样的特性。要进行分析处理或者DM,首先要解决的就是要提供一

6、个平台。所以结合概要数据结构本身特点,它成为了DSMS中的重要组成部分。流数据与概要数据结构的特点结合。知道了为什么,下面介绍创建概要数据结构的一些基本概念,其中后面要讲在线的流数据挖掘实质上也是对概要数据结构的维护。大多流数据应用中,概要数据结构是满足界标模型的,就是从一个时间戳到当前时间戳的数据。那么基于界标的模型的概要数据结构,就要求这个结构能近似模拟整个数据集合的特征。所以我们肯定要有一个度量标准,这里主要运用概率方面的理论来作为基础。2.2.2创建理论基础:Marknov;chebyshev;hoeffding;chernoff前两个不等式描述了随机变量偏离其数学期望的概

7、率。(大数定理)Hoeffding相对前面的不等式它对误差概率的限制更为严格。后边要讲的流数据上DM中的分类器的构造就要利用hoeffding边界的概念。Chernoff在某些应用中chernoff不等式还优于hoeffding的误差限制。以上的四个不等式就是创建概要数据结构理论基础2.2.3创建方法:直方图,hash,抽样,小波等基于界标的指数直方图,基本窗口,链式抽样基于非界标模型下的滑动窗口直方图思想是:将一个大数据集划分为过个连续的桶,也就是小数据集,每个桶都

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。