数据仓库与数据挖掘

数据仓库与数据挖掘

ID:44934108

大小:142.00 KB

页数:24页

时间:2019-11-05

数据仓库与数据挖掘_第1页
数据仓库与数据挖掘_第2页
数据仓库与数据挖掘_第3页
数据仓库与数据挖掘_第4页
数据仓库与数据挖掘_第5页
资源描述:

《数据仓库与数据挖掘》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、数据仓库----SQLserver2000AnalysisServices2005年11月9日数据库与数据仓库数据库-数据管理-事务处理-获取数据-OLTP-银行的存款和取款数据仓库-管理技术-决策支持-分析数据-OLAP-规律趋势决策预测数据仓库(DataWarehouse)是一个面向主题的、集成的、稳定的、包含历史数据的数据集合,它用于支持管理中的决策制定过程。数据仓库不是产品。数据库技术-存储数据和管理资源统计分析技术-分析和提取信息人工智能技术-挖掘知识和发现规律1.面向主题:按主题进行组织,为按主题进行决策的过程提

2、供信息2.集成:经过系统加工、汇总和整理3.稳定:长期保留,插入和查询4.包含历史数据:过去某一时点到目前的信息,发展历程和未来趋势利用数据仓库解决四种类型的问题:1.2005年10月25日肝脏外科的住院人次数是多少?2.呼吸内科明年的就诊情况如何?(科室应作何相应调整?)3.2005年1-10月份经消化内科某医师诊治的十二指肠球部溃疡患者的平均住院天数及药品费用构成比是多少?4.影响患者住院费用高低的因素是哪些?其中哪个是最关键因素?数据仓库设计与开发的一般过程:1.任务和环境的评估2.需求的收集和分析3.设计数据仓库4.

3、创建数据准备区5.创建数据仓库数据库6.从联机事务处理系统中析取数据7.清理和转换数据8.向数据仓库数据库中加载数据9.向数据集市发布数据10.创建多维数据集11.进行数据挖掘12.设计并实现终端用户的应用程序13.将数据仓库和基于它的应用投入使用☆数据仓库的数据模型结构1.星型模型星型模型由一个事实表和维表组成,事实表是星型模型的核心表,包含两种类型的列,第一种列是维度表的索引列,这些列中存储了各维表的主键值,它们组合成事实表的主键;而其他非主属性的列则称为事实列,其中包含了用于计算的信息,即多维数据集中的度量值。事实表中

4、的每个事实指向每个维表中的一个元组。2.雪花模型雪花模型是对星型模型的一个扩展,每个维表都可以向外连接多个维表。雪花模型是对星型模型的维表进一步标准化,维表分解成与事实表直接关联的主维表和与主维表关联的次维表。它的优点是通过最大限度的减少存储量以及将较小的标准化表而不是较大的非标准化表联合在一起来改善查询性能。由于采用标准化及维的较低粒度,雪花模型增加了应用程序的灵活性,但由于雪花模型增加了连接操作的次数,因而也增加了查询的复杂性。多维数据集:事实表与维表多维数据集是联机分析处理的主要对象,是分析数据的基础,是一项可对数据仓

5、库的中的数据进行快速访问的技术。维度:维度是人们观察数据的特定角度,是数据的视图,如可以从时间、科室、病种等不同的角度观察有关住院情况的数据。在实际中最常用的维度是时间维度,维也可以有细节程度不同的描述,这些不同的描述称为维的层次(级别或粒度)。数据仓库中的数据按照不同的维组织起来形成了一个多维的立方体,也即多维数据集。星型架构:单个维表;雪花架构:多个相关联的维表级别、粒度、成员属性粒度是数据仓库中数据单元的详细程度和级别。粒度越小,级别越低,细节程度越高;反之,数据综合程度越高,粒度越大,级别就越高。数据的粒度越高,所需

6、要存储的数据量越少,但对决策者的重要性却随之增加。成员属性一般为某一级别的具体属性,通过为某一级别创建成员属性,可以进行数据挖掘。时间、病种、患者、……;区域、产品、……时间维度:年、月、日病种维度:ICD主类、ICD次类、ICD子类、疾病名称患者维度:所属科室、经诊医师、患者(成员属性:性别、年龄、身份、费用类别、手术情况、入院方式、入院病情、出院方式、治疗结果、就诊次数、所患疾病等)治疗结果:只有一个级别度量值:主要是数值型字段,如:费用金额、住院天数等衍生度量值:就诊人次数等计算成员:均值、百分比、率等时间代码科室代码

7、病种代码性别代码年龄代码身份代码转归代码住院天数术前住院天数住院总费用药品费用……性别维表年龄维表身份维表时间维表科室维表病种维表转归维表住院事实表星型模型时间代码患者代码病种代码性别代码年龄代码身份代码转归代码住院天数术前住院天数住院总费用药品费用……性别维表年龄维表身份维表时间维表患者代码住院科室代码病种维表转归维表住院事实表雪花模型科室维表患者维表SQLserver2000数据挖掘2005年11月10日分析问题数据数据数据数据仓库多维数据集创建和训练模型校验数据数据挖掘模型维护数据挖掘数据清洗和转换查询数据客户端数据查

8、询OLAP数据挖掘过程数据挖掘结果解释查询数据数据挖掘(datamining,DM)就是通过对大型数据库和数据仓库中大量似乎无关的数据进行分析,以便发现并提取隐藏在数据深处的、人们事先不知道的、但是潜在有用的信息、知识和规律的过程。数据挖掘是一种基于发现的方法,它能够自动分析数据并进行归纳

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。