欢迎来到天天文库
浏览记录
ID:58295305
大小:763.36 KB
页数:3页
时间:2020-04-30
《一种元数据驱动数据仓库设计与应用.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、科技创新2014年第2期科技创新与应用一种元数据驱动数据仓库设计与应用何永(同济大学软件学院,上海200000)摘要:数据仓库技术广泛服务于业界信息系统建设之需求,大数据分布式架构的兴起也促进了数据仓库技术带的发展。文章结合一个应用项目的需求,设计开源技术方案,实施多种异构数据整合、元数据驱动、主题标签及Extjs架构的图形显示。实现了一套可视化的数据仓库系统,用以解决复杂的异构数据以及数据的展示,也为后续的决策支持系统构建和数据挖掘工作提供基础。关键词:元数据;ETL;异构数据;数据仓库1引言的ETL的过程。所以当
2、需要转变商业规则或数据结构,就需要重新随着联入互联网络的发展,主机数、用户数和信息源节点数的设计ETL过程,重用性很低。为了解决以上问题,设计一种新的ETL爆炸性增长,使数据形式也出现了多样化,不光有结构性的数据,还应对方案,解决的了过程核心的重复编写,提供了重用性,采用了有许许多多例如TXT文件或者图片视频等非结构性数据类型,但ETL工具和API接口相结合的架构方式,能够满足大部分的数据源这些分散的数据使人们在信息检索和网络资源管理等方面面临着和多样的处理过程,在保证数据加载性能的同时更灵活方便,以元许多难题。数据
3、为驱动,实施了一整套数据仓库系统并研究分析。关系型数据库具有极强的管理能力,数据的安全性高,和可靠3系统设计的并发机制,一直是结构化数据存储的主流。但各种数据库系统之本系统主要以意大利Pavia大学IRMA项目为背景,实现一套间的差异,已经所依赖操作系统之间的异构型,严重影响了信息共交互性的城市助手系统,建立数据仓库,提供分析图表,帮助行政人享和数据交换。员更好的管理城市基础设施。市民也可以使用手机APP主动的加随着应用的不断进步发展,企业已经不能光靠联机事务处理入到城市的监控,对公共设施出现的问题可以立即拍照上传,
4、并根OLAP去应对压力取得行业领先水平,这是他们需要对自身业务的据位置信息显示在地图上,不同用户间可以相互评论。城市管理人运作及整个市场行业相关的趋势进行分析,做出有利的决策。这时员在web端监视到出现的问题,就会派专人去查看、确定问题,之后对以往大量的历史数据的使用和存贮就成了势在必行。但实际企会有维修人员到现场去处理,并使用App追踪维修进度。当事故解业与企业之间,企业内部各部门之间业务、目标以及操作系统、存储除,市民能查看到问题已处理,可以放心出行。城市管理者也会收到方式的不同必然造成数据上的差异,不能提供有效
5、的信息共享,形反馈,这样管理者可以对事故做进一步的预测、预防。成数据孤岛,不能满足管理人员决策分析的需求。传统关系数据库首先以事故为主题确立需求,建立异构数据整合架构———即依然不能满足以上需求,这时就需要一种能够适应决策分析的数据ETL过程设计,包括源数据确立、元数据驱动、ETL流程包。接着选环境———数据仓库(DataWarehouse,DW)。在本文中建立一套数据择维度属性建立数据仓库,包括事实表维表属性选取、虚实多维数仓库系统,完成了多种异构数据的整合,简单的BI分析并用图表显据库设计。示。第二部分讲述数据仓
6、库整体架构思路,第三部分为本套以元数3.1异构数据整合架构据为驱动系统的具体实施,第四部分文章总结。源数据———本文的系统主要由三种异构数据源,文本、xls、xml2技术背景和数据库,文本数据源和XlS文件,一般为业务部门常用数据格式,数据仓库是数据分析和决策支持系统(DecisionSupporting其中文本数据属于非结构化数据;XML源数据主要是从新浪微博上System,DSS)在当代海量数据背景下产生的技术。是一个面向主题根据关键字抽取的数据。传统数据库一般为系统内部结构化数据和的、集成的、相对稳定的、反映历
7、史变化的结构化数据集合[1]。数据仓外部开放API的DBMS数据,主要抽取跨业务的结构化数据。库的建设更像一个过程而不是工程,以现有企业大量历史的数据作元数据———是关于数据的数据,通过扫描数据字典来加载源数为积累,进行归纳重组,运算分析,把计策信息及时地交给企业管理据库和目标数据库的体系结构,表相关信息等等。元数据库管理模层,这才是数据仓库的根本任务。经典架构见图1。块对元数据库中的元数据提供修改和维护管理并写入日志。中间件是转换过程中的重要部件,减少对数据库的操作,增加转换效率,提高数据操作的可靠性和一致性。见图
8、2。图1经典数据仓库DWETL(Extract-Transform-Load),即从各种异构数据源中抽取数据,并按照预先设计好的规则进行转化清洗,处理一些冗余、歧义、图2元数据驱动架构残缺、违反业务逻辑的数据,统一数据粒度,最后加载到目标数据仓库中,是建立数据仓库的必要基础。ETL设计和开发占整个数据仓库系统开发量的60%~80%[2],一般有
此文档下载收益归作者所有