欢迎来到天天文库
浏览记录
ID:37615565
大小:1.13 MB
页数:70页
时间:2019-05-26
《实时数据仓库》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、实时数据仓库调研报告北京大学计算机系数据库实验室林子雨北京大学计算机系数据库实验室2006年8月18日提纲与实时数据仓库相关的概念实时数据仓库面临的挑战连续数据集成总结参考文献北京大学计算机系数据库实验室2006年8月18日数据仓库的5个发展阶段12345报表阶段分析阶段预测阶段实时决策阶段主动决策阶段ReportingAnalysisPredictionOperationalizeActivate北京大学计算机系数据库实验室2006年8月18日与实时数据仓库相关的概念主动数据仓库ActiveDataWarehouse及时数据仓库相关
2、概念Right-timeDataWarehouse实时数据仓库Real-timeDataWarehouse北京大学计算机系数据库实验室2006年8月18日与实时数据仓库相关的概念实时数据仓库•MichaelHaisten首先提出实时数据仓库的概念•在数据仓库中保持两类数据,静态数据和动态数据•静态数据:满足用户的查询分析要求•动态数据:为了实时性,可以实时更新,并做相应转换,满足用户对“最后一分钟”数据的实时请求•其他定义……[11]总结:实时数据仓库是这样一个系统,只要行为发生,数据就变得可用,就能从中获得信息。北京大学计算机系数据库实验室2
3、006年8月18日数据仓库相关概念区分及时数据仓库•数据更新周期介于“实时和每天一次”之间[9]•在特定的商务问题提出时,就能马上给出答案•从及时数据仓库中得到的答案,能够帮助组织做出带来巨大收益的决策•为了回答这些事先设计的特定的商务问题,需要在数据仓库中预先存储该商务问题所需的集成的数据(比如一天一次或15分钟一次)•从技术角度讲,不存在实时数据仓库北京大学计算机系数据库实验室2006年8月18日与实时数据仓库相关的概念主动数据仓库•主动数据仓库是一个关系型数据仓库环境,支持:[8]•数据的实时更新•快速的响应时间•基于钻取的聚集数据查询能
4、力•动态的交互能力北京大学计算机系数据库实验室2006年8月18日与实时数据仓库相关的概念主动数据仓库(ActiveDataWarehouse)及时数据仓库(Right-timeDataWarehouse)实时数据仓库(Real-timeDataWarehouse)主动数据仓库及时数据仓库实时数据仓库更新方式实时及时实时自动规则触发有无无[注]注:某些厂商在其实时数据仓库解决方案中包含自动规则触发功能,但仍采用“实时数据仓库”的名称,而实际上已经等同于“主动数据仓库”。北京大学计算机系数据库实验室2006年8月18日提纲与实时数据仓库相
5、关的概念实时数据仓库面临的挑战连续数据集成总结参考文献北京大学计算机系数据库实验室2006年8月18日实时数据仓库面临的挑战和解决方案北京大学计算机系数据库实验室2006年8月18日实时数据仓库面临的挑战和解决方案挑战1–支持实时ETL挑战2–实时数据的建模挑战3–OLAP查询和变化的数据挑战4–可扩展性和查询竞争挑战5–实时报警北京大学计算机系数据库实验室2006年8月18日挑战1:支持实时ETL批处理ETL实时ETL–几乎所有的ETL工具和系–不可能允许存在系统的当统,不管是现成的产品还机时间是定制编码的,都是以批处理方式工作–没有
6、当机的情况下对数据问题描述仓库进行连续更新,通常–ETL过程通常需要数据仓与传统的ETL工具和系统库暂时当机,停止对外服的设计理念是相互冲突的务北京大学计算机系数据库实验室2006年8月18日挑战1:支持实时ETL23直接流水注入式流水和跳跃式14准实时ETL外部实时数据缓存实时ETL北京大学计算机系数据库实验室2006年8月18日挑战1:支持实时ETL解决方案1:准实时ETL•根本不考虑采用真正实时的ETL•并不是所有的问题都需要实时的答案•因实时而引起的开销可能超出由实时而带来准实时ETL的收益•对于某些应用,只要简单地提高现有的数据加载的
7、频率即可•当不需要严格的实时时,准实时是一个比较可行的解决方案北京大学计算机系数据库实验室2006年8月18日挑战1:支持实时ETL数据源解决方案2:直接流水注入式[15]数据源ETL•把从源系统产生的新数据象水流数据源一样直接注入到数据仓库•可以直接在数据库仓库事实表中插入或更新数据数据仓库•也可以把数据插入到实时分区当中的单独的事实表中•--------缺点---------140128•可扩展性不好,复杂查询和连续116120插入及更新混在一起进行会严重影102.71009593预测1767680预测2响数据库的性能60604000年05
8、年10年15年北京大学计算机系数据库实验室2006年8月18日挑战1:支持实时ETL解决方案3:流水和跳跃式数据源把数据连续地注入到阶段存储表数据源E
此文档下载收益归作者所有