数据仓库总结

数据仓库总结

ID:46690117

大小:52.50 KB

页数:3页

时间:2019-11-26

数据仓库总结_第1页
数据仓库总结_第2页
数据仓库总结_第3页
资源描述:

《数据仓库总结》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、数据仓库系统与传统数据库系统的区别数据库是而向爭务的设计,数据仓库是面向主題设计•的。数据库i般存储在线交易数据,数据仓库存储的i般是历史数抑莒数据库设计是尽最避免冗余,i般采用符合范式的规则來设计,数据仓库在设计是有帝引入冗余,采用反范式的方式來设计•数据库是为捕获数据而设计,数据仓库是为分析数据而设计,它的两个基本的元素是维表和爭实表.数据仓库.是在数据库已经大量存在的情况下.为了进一步挖掘数据资源、为了决第襦耍而产生的,它决不是所谓的“大型数据库蔦数据挖掘与传统分析工具不同的是数据挖掘使用的是基•丁发现的方法,运用模式匹配和

2、其它算法决定数据之间的重要联系。数据挖掘的步骤1•描述数据…计算统计变址(比如平均值、均方差等),再用图表或图片直观的表示出來,进而可以看出一些变量之间的相关性。2•历史数据建立一个预言模型.然后再用另外一些数据对这个模型进行測试°3•验证你的模型数据挖掘与传统数据分析方法区别(1)数据挖掘的数据源与以前相比有了尅苦的改变;数据是海虽的;数据有咙声;数据可能是非结构化的;(2)传统的数据分析方法一般都是先给出一个假设然后通过数据验证,在一定意义上是假设!JK动的;与之相反,数据挖抽在一定意义上是发现驱动的,模式都是通过大虽的搜索工

3、作从数据中自动提取岀來。即数摞挖掘是要发现那些不能靠直觉发现的倍息或丸I识,英至是违背直觉的信息或知识•挖掘出的信息越是出乎意料,就可能越仃价值。在缺乏强有力的数据分析工具而不能分析这些淡源的情况下,历史数据库也就变成了"数据坟塞''一里面的数据儿乎不再被访问。也就是说.极有价值的信息被"淹没"在海显数据堆中,领导者决後时还只能凭自己的经龄和直觉。因此改进原有的数摞分析方法,使之能够智能地处理海虽数据,即演化为数据挖掘。数据挖掘方法与过程❖方法:决策树关联规则人工神经网络和糙集理论遗传算法❖过程:1•对数据库数据整理,抽取出用來完

4、成特定挖掘目标的数据樂。2•选择合适的挖拥方法和工具,在领域专家指导下进行知识获取研究3•对爭物的发展进行预测•数据采集与处理:从数据仓库中选辄关的数据集合。知识库指导数据挖掘和评价挖掘结果。数据挖掘:对数据仓库中提取的数据进行分析处理。知识评价:是以兴趣度作为衡星标准來查找和选择对最终决笫活动友有益的的知识。OLAP与数据挖掘(DM)的比较相同之处:OLAP与DM都是数据库(数抑:仓库)上的分析工具;不同之处:(1)W者是验证型的,后者是挖掘型的:(2)就者建立在多维视图的基础之上,强调执行效率和对川户请求命令的及时响应,而且其

5、直接数据源•股是数据仓廉;后者建立在各种数摞源的基础上•重在发现隐藏在数据深层次的对人们有用的模式•-傲并不过多考世执行效率和响应速度。(3)数据挖掘与OLAP不同,主耍体现在它分析数据的深入和分析过程的自动化,自动化的含义是其分析过程不需婆客户的参与,这是它的优点,也正是其不足。因为在实际中,客户也希望参与到挖掘中來,例如只想对数据的某一子集进行挖堀,对不同抽取、集成水平的数据进行挖掘,或绘根据自己的需契动态选择挖掘算法等等。因此,OLAP与数据挖掘各有所长。OLAP与OLTP的区别(1)OLTP主耍面向公司职员;OLAP则主耍

6、曲向公司领导者•(2)OLTP应用主翌是用来完成客户的事务处理,其数据基础是操作型数抑:库,如民航订票系统、做行储衿系统等等,通常蛊耍进行人虽的更新操作,同时对响应时间耍求较高;而QLAP是以数据仓库或数据影维视图为基础的数据分析处理,是针对特定问题的联机数据访问和分析,它-傲不对仓库数据作修改处理,而只是査询,其应用主姿是对客户当前及历史数据进行分析,辅助领导决後,贞典型的应川有对银行倍用卡风险的分析与预测、公司市场营销策賂的制定等.主契是进行OETP而向人群业务系统的操作.维护人员功能日常操作处理实现方式基于交易的处理系统应川

7、场合而向生产应用数据库设计实体•联系模型数据当前的、最新的细节数据大星的査询操作,对时间的耍求不太严格。响应时间对响应时何耍求菲常高数据仓库与数据集市的差别(1)范围不同:数据仓库而向的是整个企业•OLAP管理.决策者分析.决策辅助基于查询的分析系统面向特定主題星形或雪花模型历史的.聚合的数据査询时间长为整个企业提供所需的数据;数据集市則面向各个部门(2)粒度不同:数据仓库中的数据粒度非常小:数据集市中的数据主要是概括级的数据。(3)数据组织方式不同数据集市中数据的结构通常被描述为星型结构或雪花结构。一个星型结构包含两个基本部分一

8、一个爭实表和各种支持维表。事实表描述数据集市中最密集的数据。在电话公词中.用于呼叫的数据是典型的最密集数据;在银行中,与账目核对和自动柜员机有关的数据是典型的戴密集数抑;。对于冬借业而言.销督和库存数抑;是垠密集的数抑;等等。敢擋集市散拥来砍遨常乐

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。