第10章描述建模聚类ppt课件.ppt

第10章描述建模聚类ppt课件.ppt

ID:59494905

大小:736.50 KB

页数:55页

时间:2020-09-13

第10章描述建模聚类ppt课件.ppt_第1页
第10章描述建模聚类ppt课件.ppt_第2页
第10章描述建模聚类ppt课件.ppt_第3页
第10章描述建模聚类ppt课件.ppt_第4页
第10章描述建模聚类ppt课件.ppt_第5页
资源描述:

《第10章描述建模聚类ppt课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、五邑大学计算机学院何国辉数据仓库与数据挖掘DataWarehouseandDataMining7/28/20211数据仓库与数据挖掘DataWarehouseandDataMining第十章描述建模:聚类7/28/20212描述建模的目的是对数据进行概括,以看到数据的特征。描述建模的方法有很多,如:聚类分析、密度估计、因素分析等。本章主要讨论聚类分析。10.0基本概念7/28/20213根据学习过程是否有指导,基于数据挖掘的学习方法可以分为两大类:有指导的学习:指存在一部分已知的知识,能对模型的构造起到指导作用。

2、学习的目的是构造最优的模型,使它与已知知识之间的误差最小。无指导的学习:在构造模型的过程中,没有利用已知的知识,模型完全从数据中抽取。分类是一种典型的有指导的学习方法。10.1聚类分析简介7/28/20214聚类属于无指导学习方法。它在没有训练样本的情况下,依靠数据自身的相似性把数据集划分成多个有意义的子集(一个子集称为一个组或一个族(簇))。方法:将数据集分组,使其具有最大的组内相似性和最小的组间相似性。10.1聚类分析简介(续)7/28/2021510.1.1对象间的相似性对象间的相似性是聚类分析的核心。不同

3、类型的对象,其相似性的定义方式是不同的。对象的属性可分为:区间标度型二元型分类型序数型比例型7/28/202161.区间标度型变量区间标度型变量的典型代表:温度、湿度等。这一类型变量通常有一个可以被均匀分割的取值区间。在进行聚类分析前,该类变量需要先进行规格化,以消除因度量单位不同而带来聚类结果不一致的影响。7/28/202171.区间标度型变量(续)对于给定变量f,假设它在n个对象上的取值分别为x1f,x2f,...,xnf,则一种常用的规格化方法是求标准偏差:其中:是平均绝对偏差,而是算术平均。7/28/20

4、2181.区间标度型变量(续)基于区间标度型变量的相似性通常用距离来描述。距离越大,相似性越小。反之,距离越小,相似性越大。令D={x1,x2,...,xm}为m维空间中的一组对象,,d(i,j)是xi和xj的距离,则采用欧几里得距离公式为:7/28/202191.区间标度型变量(续)采用曼哈坦距离公式为:7/28/2021101.区间标度型变量(续)上述两种距离函数都满足如下性质:非负数,d(i,j)必须是一个非负数;d(i,j)=0,说明某个对象到自己的距离为0;对称性,d(i,j)=d(j,i);d(i,j

5、)≦d(i,h)+d(h,j),即该距离函数满足三角不等式。7/28/2021111.区间标度型变量(续)上述两种距离函数是明可夫斯基距离公式的特殊形式:考虑到不同变量具有不同的重要性,则可以对不同的变量制定不同的权重,即:qqjmimqjiqjixxxxxxjid/12211)

6、

7、

8、

9、

10、(

11、),(-++-+-=…7/28/2021122.二元型变量二元型变量只能取两个值。如:性别只能取“男”或“女”,等等。对于对称的二元型变量,通常采用的距离计算公式为:d(i,j)=(b+c)/(a+b+c+d)对于非对称的二

12、元型变量,采用的距离计算公式为:d(i,j)=(b+c)/(a+b+c)7/28/2021132.二元型变量(续)其中:7/28/2021143.分类型变量分类型变量是二元型变量的扩展,它可以取多个值,例如:世界上的七大洲、4大洋,我国的56个民族中的“洲”、“洋”和“民族”。通常采用的距离公式为:d(i,j)=(p-m)/p其中,p表示分类型变量的总数,而m表示相匹配的变量个数。7/28/2021153.分类型变量(续)举例:给出6个6维分类的样本:X1={A,B,A,B,C,B}X2={A,A,A,B,A,B

13、}X3={B,B,A,B,A,B}X4={B,A,B,A,C,A}X5={A,C,B,A,B,B}X6={A,C,B,A,B,B}求样本两两之间的距离?7/28/2021164.序数型变量序数型变量的域由多个有先后次序的状态值构成,如:排名{冠军、亚军、季军}、职称{助教、讲师、副教授、教授}等。序数型变量的相似性计算方法和区间标度型变量的相似性计算方法类似。措施:先进行规格化,将变量的值映射到[0.0,1.0]之间。7/28/2021174.序数型变量(续)假设第i个对象在第f个变量上的取值为rif,规格化的方

14、法为:其中,Mf指的是该序数型变量所能取的所有值的个数。格式化后,就可以采用欧几里得等距离公式计算任意两个对象之间的距离。7/28/2021185.比例型变量比例型变量主要用来描述数据的指数型变化,如细菌数目的增长等。对于比例型变量,通常采用先将其转换成区间标度型变量(通过对数变换),然后再采用和区间标度型变量相同的方式计算相似度。7/28/2021196.混合型变量混合

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。