欢迎来到天天文库
浏览记录
ID:43187574
大小:149.85 KB
页数:10页
时间:2019-09-27
《数据挖掘概念复习》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、数据挖掘:是从大量数据屮发现有趣(非平凡的、隐含的、先前未知、潜在有用)模式,这些数据可以存放在数据库,数据仓库或其他信息存储中。挖掘流程:(1)学习应用域(2)冃标数据创建集(3)数据清洗和预处理(4)数据规约和转换(5)选择数据挖掘函数(总结、分类、回归、关联、分类)(6)选择挖掘算法(7)找寻兴趣度模式(8)模式评估和知识展示(9)使用挖掘的知识概念/类描述:一种数据泛化形式,用汇总的、简洁的和精确的方法描述各个类和概念,通过(1)数据特征化:目标类数据的一般特性或特征的汇总;(2)数据区分:将目标类数据的一般
2、特性与一个或多个可比较类进行比较;(3)数据特征化和比较来得到。关联分析:发现关联规则,这些规则展示属性■值频繁地在给定数据集中一起出现的条件,通常要满足最小支持度阈值和最小置信度阈值。分类:找出能够描述和区分数据类或概念的模型,以便能够使用模型预测类标号未知的对象类,导出的模型是基于训练集的分析。导出模型的算法:决策树、神经网络、贝叶斯、(遗传、粗糙集、模糊集)。预测:建立连续值函数模型,预测空缺的或不知道的数值数据集。孤立点:与数据的一般行为或模型不一致的数据对象。聚类:分析数据対象,而不考虑已知的类标记。训练数
3、据中不提供类标记,对象根据最大化类内的相似性和最小化类间的原则进行聚类或分组,从而产生类标号。第二章数据仓库数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合,支持管理部门的决策过程。从一个或多个数据源收集信息,存放在一个一致的模式下,并且通常驻留在单个站点。数据仓库通过数据清理、变换、继承、装入和定期刷新过程来构造。面向主题:排除无用数据,提供特定主题的简明视图。集成的:多个异构数据源。时变的:从历史角度提供信息,隐含时间信息。非易失的:和操作数据的分离,只提供初始装入和访问。联机事务处理OLTP:主要任务
4、是执行联机事务和查询处理。联系分析处理OLAP:数据仓库系统在数据分析和决策方面为用户或'知识工人'提供服务。这种系统可以用不同的格式和组织提供数据。OLAP是-•种分析技术,具有汇总、合并和聚集功能,以及从不同的角度观察信息的能力。特征特征面向用户功能DB数据访问OLTP操作处理事务DBA,办事员F1常操作基于ER当前最新读/写OLAP信息处理分析知识工人决策支持星型,雪花时间跨度读特征汇总用户操作访问记录优先DB规模度量OLTP原始,详细数千主码索引数十个高性能可用100mb-gb事务OLAP汇总,统一数百大量扫
5、描数百万高灵活100gb-tb查询多维数据模型:多维数据模型将数据看作数据立方体,允许从多个维度对数据建模和观察。包含维表和事实表。最流行的数据仓库数据模型是多维数据模型,这种模型可以是星形模式(事实表在中间,连接到多个维表)、雪花模式(星型的变种,某些维表规范化,分解到附加维表,以减少冗余)、事实星座模式(多个事实表共享维表)。数据立方体:允许从多维对数据建模和观察。它由维和事实定义。维:关于一个组织想要保存记录的透视图和实体,每个维都有一个表与之相关联,成为维表。事实表:包括事实的名称和度量,以及每个相关维表的码
6、。方体Cuboid:每个数据立方体c基本方体BaseCuboid:存放最底层汇总。顶点方体ApexCuboid:最高层汇总,all。数据立方体DataCube:给定维的集合,可以对维的每个可能子集产生一个方体。结果成为方体的格。多维数据立方体:提供数据的多维视图,并允许预计算和快速访问汇总数据。度量:数值函数,通过对给定点的各维■值对聚集数据,计算该点的度量值。概念分层:映射序列,将底层概念映射到更一般的较高层概念。OLAP操作:上卷:上卷操作通过一个维的概念分层向上攀升或者通过维规约,在数据立方体上进行聚集。下钻:
7、下钻是上卷的逆操作,它由不太详细的数据到更详细的数据。切片和切块:切片对一个维进行选择。切块对两个以上维进行选择,定义子立方体。转轴:可视化操作,转动视角。钻过:跨越多个事实表。钻透:钻到后端关系表。数据仓库模型的不同类型:1、企业仓库:收集了关于跨部门的整个组织主题的所有信息,跨越整个组织,因此是企业范崔I的。2、数据集市:是企业仓库的一个部门子集,它针对选定的主题,对于特定的用户是有用的,因此是部门范围的,其数据通常是汇总的。3、虚拟仓库:虚拟仓库是操作数据库上视图的集合,易于建立,但需要操作数据库服务器具有剩余
8、能力。数据仓库的三层结构:1、仓库数据服务器:使用后端工具(抽取、清晰、转换、装载、刷新)和实用程序由操作数据库和其他外部数据源提取数据,进行数据清理和变换并放入仓库底层2、OLAP服务器:直接实现对多维数据的操作,直接为商务用户提供来自数据仓库或数据集市的多维数据。ROLAP:多维数据操作映射到标准关系操作。MOLAP:多维数据视图映射到数组
此文档下载收益归作者所有