数据仓库与数据挖掘技术概述1final

数据仓库与数据挖掘技术概述1final

ID:37400829

大小:555.10 KB

页数:32页

时间:2019-05-12

数据仓库与数据挖掘技术概述1final_第1页
数据仓库与数据挖掘技术概述1final_第2页
数据仓库与数据挖掘技术概述1final_第3页
数据仓库与数据挖掘技术概述1final_第4页
数据仓库与数据挖掘技术概述1final_第5页
资源描述:

《数据仓库与数据挖掘技术概述1final》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、数据仓库与数据挖掘技术概述 数据仓库参考教材数据仓库与数据挖掘原理及应用技术王丽珍等,科学出版社,2004年其它参考书Buildingthedatawarehouse,W.HInmon,机械工业出版社2004TheDataWarehouseToolkit(2ndEdition)R.Kimball电子工业出版社2002DataMining:ConceptsandTechniques.JiaweiHanandMichelineKamber.机械工业出版社,2001.史忠植,知识发现,清华大学出版社,2002课程主要内容概述数据仓库联机分析处理数据仓库的设计数据预处理维度建模数据挖掘聚类关联规则分类

2、概述-数据仓库基本概念数据仓库技术产生的背景什么是数据仓库技术信息技术发展的几个阶段1960s:数据采集、数据库创建阶段集中于原始文件的处理层次数据库和网状数据库1970s:关系数据库管理系统关系数据模型和关系数据库管理系统E-R模型、SQL语言、查询处理和优化、OLTP(恢复和并发技术)1980s:高级数据库管理系统面向对象数据库、对象-关系数据库、主动数据库、演绎数据库、模糊数据库、空间数据库、时空数据库、统计数据库数据挖掘技术1990s:数据仓库、联机分析处理和数据挖掘数据仓库、联机分析处理和数据挖掘,多媒体数据库,Web数据库、DataStream企业信息化建设现状在数据库技术的支持下

3、,一大批成熟的业务信息系统投入运行,为企业发展作出了巨大贡献各类信息系统大多属于面向事务处理的OLTP系统信息系统多年运行,积累了大量的数据数据是一种宝贵的资源,但没有充分发挥作用管理决策层对数据分析基础平台的需求日益强烈企业信息化建设提出了更高的要求市场竞争日益激烈—创造竞争优势需要及时、准确的做出科学决策科学决策必须以准确、有效的数据为基础充分利用现有数据,将它转化为信息分析人员典型的信息需求覆盖企业内部信息、合作伙伴信息和市场信息覆盖综合信息和明细信息覆盖当前数据和历史数据高可用性高质量的数据(一致性、完整性)支持各种不同的分析方法数据定义符合业务人员要求组织内部横向共享信息数据的重构个

4、人授权服务和质量管理组织之间合作伙伴客户驱动的解决方案战略联盟价值链和供应链市场竞争对手市场分割实时的市场行情全球化操作型数据和分析型数据的区别原始数据/操作型数据导出数据/分析型数据面向应用面向主题详细的综合的,或提炼的在访问瞬间是准确的代表过去的数据,快照是为日常工作服务为管理者服务可更新不更新重复运行启发式运行处理需求预先可知处理需求事先不知道非冗余性总是存在冗余对性能要求高对性能要求宽松一次访问一个单元一次访问一个集合静态结构:可变的内容结构灵活访问频繁访问很少或不多现有数据库系统处理分析型应用 存在的问题——数据可信性数据没有同一时间基准例如:一个企业的两个部门向管理者呈送报表部门A

5、,于星期天傍晚抽取了分析所需的数据,结论为业绩上升10%部门B,于星期三下午抽取了分析所需的数据,结论为业绩下降15%算法不同部门A使用的是旧帐号部门B使用的是大帐号多次抽取,扩大了上述两个问题用抽取程序从数据库/文件中抽取数据,并存放起来,然后又在此基础上再次进行抽取,从数据进入系统到提供分析往往经过8、9次的抽取。在实际中经常存在这样“蜘蛛网”问题没有统一规划和设计数据模型不一致数据定义不一致数据准确性差,冗余度高业务流程发生变化历史数据不统一、不规范解决方案:深入、全面、客观的数据源分析建立数据仓库系统数据可信性(续)外部数据问题一位分析员把《华尔街日报》的数据带进系统另一位将《商业周刊

6、》的数据进入系统数据一旦进入系统,往往已失去“身份”,并且一位分析员也不知道另一位分析员所输入的数据开始时就不是同一个公共的数据源部门A最初来源于文件XYZ部门B最初来源于DBABC现有数据库系统处理分析型应用 存在的问题——从数据到信息例如:“今年的帐户情况与前五年比较”涉及大量应用:储蓄应用、贷款、即期汇票管理、信托,而这些应用并未集成。没有足够的历史数据:贷款部门,拥有二年的数据银行存折处理,拥有一年的数据即期汇票管理只有60天的数据现金交易处理具有18个月的数据。数据不一致问题:同名不同义、同义不同名,例如M/F,Male/Female外部数据和非结构化数据现有数据库系统处理分析型应用

7、 存在的问题——生产率为了生成一个企业报表,必须经过获得源数据定位和分析数据:由于同名不同义、同义不同名,很难准确定位和分析,可能造成进一步的混乱把数据加工成报告要写许多程序,每个程序必须客户化(与客户环境有关)程序会涉及公司具有的各种技术由于定位数据困难,检索所要的数据是一件很麻烦的事完成任务需要很长时间定位数据+获得数据+集成报告,完成任务所需时间较长每份报告各自需求不同,因此每份报告所需要的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。