资源描述:
《数据仓库技术与联机分析处理 Data Warehouse & OLAP.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第二讲数据仓库技术与联机分析处理DataWarehousing&OLAP本章主要内容1.多数据源问题2.数据预处理问题3.数据仓库的定义及其理解数据的粒度数据的分割数据组织形式数据追加4.数据仓库的模型——概念/逻辑/物理模型5.联机分析技术(OLAP)6.数据库的设计与开发1.多数据源问题数据不一致:一处变了而另一处没变数据属性差异:男女(0,1)(T,F)数据重复:冗余数据不完整:存在空值噪声数据:偏差或误差高维数据:数据的多属性模式不统一:集成为单一数据集的2个或多个数据源模式不同。数据不平衡:某一类样本的数量明显少于其他类型样本的数量数据质量的多维度量多维度量观点:精确度完
2、整度一致性可信度附加价值可访问性……跟数据本身的含义相关的内在的、上下文的、表象的2.数据预处理数据清理填写空缺的值,平滑噪声数据,识别、删除孤立点,解决不一致性数据集成集成多个数据库、数据立方体或文件数据变换规范化和聚集数据归约得到数据集的压缩表示,它小得多,但可以得到相同或相近的结果数据离散化数据归约的一部分,通过概念分层和数据的离散化来规约数据,对数字型数据特别重要数据预处理的形式数据规约数据集成数据清洗数据变换-2,32,100,59,48-0.02,0.32,1.00,0.59,0.48数据清理——空缺值数据并不总是完整的例如:数据库表中,很多条记录的对应字段没有相应值,比
3、如销售表中的顾客收入引起空缺值的原因设备异常与其他已有数据不一致而被删除因为误解而没有被输入的数据在输入时,有些数据应为得不到重视而没有被输入对数据的改变没有进行日志记载空缺值要经过推断而补上如何处理空缺值忽略元组:当类标号缺少时通常这么做(假定挖掘任务设计分类或描述),当每个属性缺少值的百分比变化很大时,它的效果非常差。人工填写空缺值:工作量大,可行性低使用一个全局变量填充空缺值:比如使用unknown或-∞使用属性的平均值填充空缺值使用与给定元组属同一类的所有样本的平均值(如项目经理的平均工资150,000.)使用最可能的值填充空缺值:使用像Bayesian公式或判定树这样的基于
4、推断的方法数据清理——噪声数据噪声:一个测量变量中的随机错误或偏差引起不正确属性值的原因数据收集工具的问题数据输入错误数据传输错误技术限制命名规则的不一致其它需要数据清理的数据问题重复记录不完整的数据不一致的数据如何处理噪声数据分箱(binning):首先排序数据,并将他们分到等深的箱中然后可以按箱的平均值平滑、按箱中值平滑、按箱的边界平滑等等聚类:监测并且去除孤立点计算机和人工检查结合计算机检测可疑数据,然后对它们进行人工判断回归通过让数据适应回归函数来平滑数据数据平滑的分箱方法通过考察“邻居”(周围的值)来平滑存储数据的值,用“箱的深度”表示不同的箱里有相同个数的数据,用“箱的宽
5、度”来表示每个箱值的取值区间。由于分箱方法考虑相邻的值,因此是一种局部平滑方法。分箱的主要目的是去噪,将连续数据离散化,增加粒度。数据平滑的分箱方法price的排序后数据(美元):4,8,9,15,21,21,24,25,26,28,29,34划分为(等深的)箱:-箱1:4,8,9,15-箱2:21,21,24,25-箱3:26,28,29,34用箱平均值平滑:-箱1:9,9,9,9-箱2:23,23,23,23-箱3:29,29,29,29用箱边界值平滑:-箱1:4,4,4,15-箱2:21,21,25,25-箱3:26,26,26,34边界值平滑时,先确定两个边
6、界,然后依次计算除边界值外的其它值与两个边界的距离,与之距离最小的边界确定为平滑边界值。具体如下计算:-箱1:|8-4|=4;|15-8|=7;故选4做为平滑边界值。|9-4|=5;|15-9|=6;故选4做为平滑边界值。-箱2:|21-21|=0;|25-21|=4;故选21做为平滑边界值。|24-21|=3;|25-24|=1;故选25做为平滑边界值。-箱3:|28-26|=2;|34-28|=6;故选26做为平滑边界值。|29-26|=3;|34-29|=5;故选26做为平滑边界值。聚类通过聚类分析查找孤立点(落在聚类集合之外的值),消除噪声回归xyy=x+1X1Y1Y1’线性
7、回归(二元关系)多元回归(多变量)数据预处理为什么要预处理数据?数据清理数据集成数据变换数据归约数据离散化数据集成数据集成:将多个数据源中的数据整合到一个一致的存储中模式集成:整合不同数据源中的元数据实体识别问题:匹配来自不同数据源的现实世界的实体,比如:A.cust-id=B.customer_no检测并解决数据值的冲突对现实世界中的同一实体,来自不同数据源的属性值可能是不同的可能的原因:不同的数据表示,不同的度量等等处理数据集成中的冗余数据集成多个数据