欢迎来到天天文库
浏览记录
ID:50797761
大小:558.50 KB
页数:47页
时间:2020-03-14
《数据挖掘ppt课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、DataMining数据挖掘1数据仓库的设计与开发1.数据仓库的开发过程及特点2.数据模型设计3.数据仓库的粒度设计4.创建数据仓库的基本步骤2数据仓库的开发过程及特点1.1什么是数据仓库1.2数据仓库的开发过程分成哪几个阶段31.1什么是数据仓库数据仓库静态数据存储收集、整理和加工的过程41.1什么是数据仓库有人可能会把数据仓库简单地理解为仅仅是一个大型的数据存储机制,是一个静态的概念。实际上,数据仓库更像一个过程,这个过程涉及数据的收集、整理和加工,生成决策所需要的信息,并且最终把这些信息提供给需要这些信息的使用者,供他
2、们做出改善业务经营的正确决策。数据仓库的重点与要求就是能够准确、安全、可靠地从业务系统中取出数据,经过加工转换成有规律信息之后,供管理人员进行分析使用。因此数据仓库是一个动态的概念,应该称为数据仓库工程(DataWarehousing)。5数据仓库的开发过程及特点1.1什么是数据仓库1.2数据仓库的开发过程分成哪几个阶段61.2开发过程分成哪几个阶段71.2开发过程分成哪几个阶段分析与设计阶段数据获取阶段决策支持阶段维护与评估阶段8分析与设计阶段需求分析概念设计逻辑设计物理设计9需求分析确定决策主题域分析主题域的商业维度分析
3、支持决策的数据来源确定数据仓库的数据量大小分析数据更新频率确定决策分析方法10概念设计建立概念模型:对每个决策主题与属性以及主题之间的关系用E-R图模型表示。E-R图将现实世界表示成信息世界,便利向计算机的表示形式进行转化。11逻辑设计将概念模型E_R图转换成逻辑模型,即计算机表示的数据模型。数据仓库数据模型一般采用星型模型。星型模型由事实表,维表组成。12物理设计对逻辑模型设计的数据模型确定物理存储结构和存取方法。数据仓库的星型模型在计算机中仍用关系型数据库存储。物理数据还需要进行存储容量的估计,确定数据存储的计划,确定索
4、引策略,确定数据存放位置以及确定存储分配。131.2开发过程分成哪几个阶段分析与设计阶段数据获取阶段决策支持阶段维护与评估阶段数据抽取数据转换数据装载141.2开发过程分成哪几个阶段分析与设计阶段数据获取阶段决策支持阶段维护与评估阶段信息查询(查询者使用数据仓库发现目前存在的问题)知识探索(发现问题找出原因)151.2开发过程分成哪几个阶段分析与设计阶段数据获取阶段决策支持阶段维护与评估阶段数据仓库增长数据仓库维护数据仓库评估161.数据仓库的开发过程及特点2.数据模型设计3.数据仓库的粒度设计4.创建数据仓库的基本步骤17
5、2.数据模型设计2.1概念数据模型这是面向数据库用户的实现世界的数据模型,主要用来描述世界的概念化结构。2.2逻辑数据模型这是用户从数据库所看到的数据模型,是具体的DBMS(数据库管理系统)所支持的数据模型.2.3物理数据模型这是描述数据在储存介质上的组织结构的数据模型,它不但与具体的DBMS有关,而且还与操作系统和硬件有关。181.数据仓库的开发过程及特点2.数据模型设计3.数据仓库的粒度设计4.创建数据仓库的基本步骤193数据仓库的粒度设计数据仓库是针对面向联机分析处理(OLAP)和数据挖掘(DM)的,因此,粒度具有两种
6、形式:1)针对OLAP的粒度;2)针对DM的粒度;203.1针对OLAP的粒度定义:指数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度级越小;反之,细化越低,粒度级越高21例:感冒方剂方剂ID药物1剂量药物2剂量……500首处方高细节级例:每首方剂中使用药物的种类数低细节级方剂ID药物种类数一首方剂1个记录粒度——细节的级别22如何选择和划分粒度?数据仓库主要是分析处理的,需要处理的有细节问题也有综合问题,所以一般把数据分为:详细数据、轻度综合、高度综合三级或更多级别。不同粒度级别的数据用于不同类型的分
7、析处理。如何选择和划分粒度?23粒度选择主要标准是数据仓库表的总行数。W.H.Inmon在《BuildingtheDataWarehouse》中指出了不同数量级采用的数据粒度策略。1年内数据量5年内数据量数据粒度策略10000100000设计简单1000001000000如果使用单一粒度,则需要认真设计100000010000000最好使用多级粒度1000000020000000必须使用多级粒度且认真设计24粒度划分确定数据仓库中数据的综合次,比如对商品日销售量进行综合,可生成周、月、年销售量等。粒度划分的影响因素:1)要接
8、受的分析类型;直接影响数据仓库的粒度划分。层次越高,越不能进行细致分析。2)可接受的最低粒度;保证能够满足客户的决策分析需要;3)能存储数据的存储容量;若存储容量有限,则采用高粒度的数据粒度划分策略。253.2针对DM的粒度在数据挖掘过程中,有时仅需建立分析模型,得到相对准确、能反映趋势的
此文档下载收益归作者所有