欢迎来到天天文库
浏览记录
ID:17854324
大小:146.00 KB
页数:11页
时间:2018-09-07
《从数据仓库到大数据,数据平台这25年是怎样进化的》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、我们先从两张图来看用户群体的区别。用户群体之非互联网数据平台用户·企业的boss、运营的需求主要是依赖于报表、商业智能团队的数据分析师去各种分析与挖掘探索;·支撑这些人是ETL开发工程师、数据模型建模、数据架构师、报表设计人员,同时这些角色又是数据平台数据建设与使用方。·数据平台的技术框架与工具实现主要有技术架构师、JAVA开发等。·用户面对是结构化生产系统数据源。用户群体之互联网数据平台用户·互联网企业中员工年龄比非互联网企业的要年轻、受教育程度、对计算机的焦虑程度明显比传统企业要低、还偶遇其它各方面的缘故,导致了数据平台所面对用户群体与非互联网数据平台有所差异化;·互
2、联网数据平台的使用与建设方是来自各方面的人,数据平台又是技术、数据产品推进建设的。·分析师参与数据平台直接建设比重增加。·原有的数据仓库开发与模型架构师的职能也从建设平台转为服务与咨询.·用户面对是数据源多样化,比如日志、生产数据库的数据、视频、音频等非结构化数据。从这用户群体角度来说这非互联网、互联网的数据平台用户差异性是非常明显,互联网数据平台中很多理论与名词都是从传统数据平台传递过来的,本文将会分别阐述非互联网、互联网数据平台区别。非互联网时代自从数据仓库发展起来到现在,基本上可以分为五个时代、四种架构·约在1991年前的全企业集成·1991年后的企业数据集成EDW
3、时代·1994年-1996年的数据集市·1996-1997年左右的两个架构吵架·1998年-2001年左右的合并年代数据仓库第一代架构(开发时间2001-2002年) 海尔集团的一个BI项目,架构的ETL使用的是微软的数据抽取加工工具DTS,老人使用过微软的DTS知道有哪些弊端,后便给出了几个DTS的截图。·功能:进销存分析、闭环控制分析、工贸分析等 ·硬件环境: 业务系统数据库:DB2forWindows,SQLSERVER2000,ORACLE8I 中央数据库服务器:4*EXON,2G,4*80GSCSI OLAP服务器:2*PIV1GHZ,2G,2*40GSCSI
4、·开发环境:VISUALBASIC,ASP,SQLSERVER2000 数据仓库第二代架构这是上海通用汽车的一个数据平台,别看复杂,严格意义上来讲这是一套EDW的架构、在EDS数据仓库中采用的是准三范式的建模方式去构建的、大约涉及到十几种数据源,建模中按照某一条主线把数据都集成起来。这个数据仓库平台计划三年的时间构建完毕,第一阶段计划构建统统一生性周期视图、客户统一视图的数据,完成对数据质量的摸底与部分实施为业务分析与信息共享提供基础平台。第二阶段是完成主要业务数据集成与视图统一,初步实现企业绩效管理。第三阶段全面完善企业级数据仓库,实现核心业务的数据统一。数据集市架构这
5、个是国内某银行的一套数据集市,这是一个典型数据集市的架构模式、面向客户经理部门的考虑分析。数据仓库混合性架构(Cif)这是太平洋保险的数据平台,目前为止我认识的很多人都在该项目中呆过,当然是保险类的项目。回过头来看该平台架构显然是一个混合型的数据仓库架构。它有混合数据仓库的经典结构,每一个层次功能定义的非常明确。新一代架构OPDM操作型数据集市(仓库)OPDM大约是在2011年提出来的,严格上来说,OPDM操作型数据集市(仓库)是实时数据仓库的一种,他更多的是面向操作型数据而非历史数据查询与分析。 数据模型”数据模型“这个词只要是跟数据沾边就会出现的一个词。在构建过程中
6、,有一个角色理解业务并探索分散在各系统间的数据,并通过某条业务主线把这些分散在各角落的数据串联并存储同时让业务使用,在设计时苦逼的地方除了考虑业务数据结构要素外,还得考虑可操作性、约束性(备注约束性是完成数据质量提升的一个关键要素,未来新话题主题会讨论这些),这个既要顾业务、数据源、合理的整合的角色是数据模型设计师,又叫数据模型师。平台中模型设计所关注的是企业分散在各角落数据、未知的商业模式与未知的分析报表,通过模型的步骤,理解业务并结合数据整合分析,建立数据模型为Datacleaning指定清洗规则、为源数据与目标提供ETLmapping (备注:ETL代指数据从不同源
7、到数据平台的整个过程,ETLMapping可理解为数据加工算法,给数码看的,互联网与非互联网此处差异性也较为明显,非互联网数据平台对ETL定义与架构较为复杂)支持、理清数据与数据之间的关系。(备注:Datacleaning是指的数据清洗数据质量相关不管是在哪个行业,是最令人头痛的问题,分业务域、技术域的数据质量问题,需要通过事前盘点、事中监控、事后调养,有机会在阐述)。大家来看一张较为严谨的数据模型关系图:·数据模型是整个数据平台的数据建设过程的导航图。·有利于数据的整合。数据模型是整合各种数据源指导图,对现有业务与数据从逻辑
此文档下载收益归作者所有