欢迎来到天天文库
浏览记录
ID:47175635
大小:19.21 KB
页数:7页
时间:2019-08-16
《2019公司数据仓库毕业生实习报告》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、公司数据仓库毕业生实习报告 毕业实习期间,我在一家小公司做一个关于数据仓库的小项目,虽然以前没有学过这方面的理论,更没有开发过类似的项目,不过在上司的帮助下,自己的努力更好项目做的也差不多了,感觉在这方面也有了自己的认识,下面我就自己对这方面学习到的一些东西给大家分享一下: 一、导读部分: 说起数据仓库,可能很多同学首先就会想到数据库,毕竟就错了一个字,但是就是这一个字使这二者差异很大: 传统的数据库技术是以单一的数据资源,即数据库为中心,进行事务处理、批处理等各种数据处理工作,主要是操作型处理,操作型处理也叫事务处
2、理,是指对数据库联机的日常操作,通常是对一个或一组纪录的查询和修改,主要为企业的特定应用服务的,注重响应时间,数据的安全性和完整性。 而数据仓库则是面向主题的、集成的、不可更新的(稳定性)、随时间不断变化(不同时间)的数据集合,用以支持经营管理中的决策制定过程,主要用于分析型处理(也叫信息型处理)分析型处理则用于管理人员的决策分析,经常要访问大量的历史数据。 这只是数据库与数据仓库的一个概念性的大致区别,可见二者差别之大,另外它们在我们编程人员最关心的建立与操作各方面也差别很大,因此如果你没有这方面的知识想只凭借数据库发
3、面的知识来开发数据仓库的产品是很不可能的,这就要求你要从数据仓库最基础的知识学起。 二、数据仓库的基础知识: 1.数据仓库概念始于上世纪80年代中期,首次出现是在被誉为“数据仓库之父”williamh.inmon的《建立数据仓库》一书中。随着人们对大型数据 系统研究、管理、维护等方面的深刻识认和不断完善,在总结、丰富、集中多行企业信息的经验之后,为数据仓库给出了更为精确的定义,即“数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合”。数据仓库并没有严格的数据理论基础,也没有成熟的基本模式,
4、且更偏向于工程,具有强烈的工程性。通常按其关键技术部份分为数据的抽取、存储与管理以及数据的表现等三个基本方面。 数据仓库的重点与要求是能够准确、安全、可靠地从数据库中取出数据,经过加工转换成有规律信息之后,再供管理人员进行分析使用。数据仓库 主要是应用于决策支持系统,其主要目的是“提取”信息并加以扩展,用来进行处理基于数据仓库的决 策支持系统(dss)的应用。 2基于数据仓库的决策支持系统基于数据仓库的决策支持系统(dss)由三个部件组成:数据仓库技术(datawarehousing),联机分析处理技术(olap,o
5、n—lineanalyticalpro—cessing),数据挖掘技术(datamining)。 联机分析处理(olap,on—analyticalpro—cessing)是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正 为用户所理解的、并真实反映企业给特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。olap的目标是满足决策支持或多维环境特定的查询和报表需求。数据仓库侧重于存储和管理面向决策主题的数据;而olap侧重于数据仓库的数据分析,并将 其转换成辅助
6、决策信息。olap的一个主要特点是多维数据分析,这与数据仓库的多维数据组织正好形成相互结合、相互补充的关系。问此,利用 olap技术与数据仓库的结合可以较好地解决传统决策支持系统既需要处理大量数据又需要进行大量数值计算的问题。 olap的多维数据分析主要通过对多维数据的维进行剖切、钻取和旋转来实现对数据库所提供的数据进行深入分析,为决策者提供决策支持。多 维结构是决策支持的支柱,也是olap的核心。 数据挖掘(datamining)是从大量的、不完全的、有噪声的。模糊的、随机的数据中提取隐含在其中的、人们事先
7、不知道的、但又是潜在有用的信 息和知识的过程。 数据挖掘可以看成是一种数据搜寻过程,它不必预先假设或提出问题,但是仍能找到那些非预期的却令人关注的信息,这些信息表示了数据元素的关系和模式。它能挖掘出数据键潜在的模式(pattern),找出最有价值的信息和知识(knowledge)。指导商业行为或辅助科学研究。研究对象是大规模和超大规模的数据集合。 三:在建立数据仓库时应该注意的重点问题: 1. 找清楚主题,主题是你的数据仓库研究的一个大方向,如果你把这个都没有弄清楚的话后面的工作都是白费了。一般数据仓库
8、的主题就是客户最关心的部分,是客户的项目做好以后在运行期间时常进行操作和观察的核心内容。只要你在建立的前真正弄清楚了客户的需求,一般主题的建立就不会出问题。 2. 维度的建设,说白了维度就是客户的使用分析处理是的一个观察角度,数据仓库是多维的,也就是用户在观察的时候是从多个
此文档下载收益归作者所有