欢迎来到天天文库
浏览记录
ID:57011105
大小:2.11 MB
页数:90页
时间:2020-07-26
《聚类分析课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第9章聚类分析第9章9.1什么是聚类分析?9.2聚类分析中的数据类型9.3基于划分的聚类方法9.4基于层次的聚类方法9.5基于密度的聚类方法学习目的理解聚类与分类数据挖掘的区别。掌握聚类的常用方法。39.1什么是聚类分析聚类(Clustering):聚类是一个将数据集划分为若干组(class)或类(cluster)的过程,并使得同一个组内的数据对象具有较高的相似度;而不同组中的数据对象是不相似的。相似或不相似是基于数据描述属性的取值来确定的,通常利用各数据对象间的距离来进行表示。聚类分析尤其适合用来探讨样本间的相互关联关系从而对一个样本结构做一个初步的评价。示例表中给出9个顾客的购
2、买信息,包括购买的商品的数量及价格,根据此两个特征量,将顾客聚类成3类(购买大量的高价产品;购买少量的高价产品;购买少量的低价产品)。示例聚类是一个非常困难的事情,因为在一个n维样本空间中,数据可以以不同的形状和大小揭示类。如在二维欧几里得空间中,上面数据可以分类三个类也可以分为四个类,类的数量的任意性是聚类过程中的主要问题。9.1什么是聚类分析聚类与分类的区别:聚类是一种无(教师)监督的学习方法。与分类不同,其不依赖于事先确定的数据类别,以及标有数据类别的学习训练样本集合。因此,聚类是观察式学习,而不是示例式学习。9.1什么是聚类分析聚类分析的应用:市场分析:帮助市场分析人员从客
3、户基本库中发现不同的客户群,并用购买模式刻画不同的客户群的特征;万维网:对WEB日志的数据进行聚类,以发现相同的用户访问模式;图像处理;模式识别;孤立点检测等。9.1什么是聚类分析什么是好的聚类:一个好的聚类方法将产生以下的高聚类:最大化类内的相似性;最小化类间的相似性。聚类结果的质量依靠所使用度量的相似性和它的执行。聚类方法的质量也可以用它发现一些或所有隐含模式的能力来度量。9.2聚类分析中的数据类型基本的数据结构;区间标度变量;二元变量;符号型、顺序型和比例数值型变量;混合数据类型。1.基本的数据结构?基本的数据结构许多基于内存的聚类算法选择如下两种具有代表性的数据结构:(1)
4、数据矩阵;(2)相异度矩阵。12(1)数据矩阵数据矩阵:是一个对象—属性结构,由n个对象组成,如:人;每个对象利用p个属性加以描述,如:年龄、身高、体重等。数据矩阵采用关系表形式或n*p矩阵来表示:13(2)相异度矩阵相异度矩阵(差异矩阵):是一个对象—对象结构,存放n个对象两两之间的近似性(差异性),采用n*n的矩阵形式表示:14(2)相异度矩阵相异度矩阵(差异矩阵):所以,矩阵呈现出上三角或下三角的形式。15注意:数据矩阵通常称为双模(two-mode)矩阵:行和列分布表示不同的实体;相异度矩阵常被称为单模(one-mode)矩阵:行和列表示同一实体。许多聚类算法都是以相异度矩
5、阵为基础计算的,所以如果数据是以数据矩阵的形式给出的,则需要首先转换为相异度矩阵,才可以利用聚类算法来处理。162.区间标度变量?什么是区间标度变量区间标度变量(间隔数值变量):基本呈直线比例的连续变量,如:重量、高度和温度等。为什么标准化?通常,选用的度量单位将直接影响聚类分析的结果,如:将高度的度量单位由“米”变为“英尺”,或将重量的单位由“千克”变为“英镑”,可能会产生非常不同的聚类结构。一般,度量单位越小,变量可能的值域越大,对聚类结果的影响也越大。因此,为避免对度量单位选择的依赖,数据应当标准化。18度量值的标准化为了实现标准化,一种方法是将初始测量值转换为无单位变量。给
6、定一个属性变量f,可用如下公式对其进行标准化:(1)计算平均的绝对偏差其中x1f,x2f,…,xnf是变量f的n个测量值;mf为变量f的均值,即:(2)计算标准化测量(z-score):19度量值的标准化20度量值的标准化21度量值的标准化223.二元变量?什么是二元变量二元变量(二值变量):一个二元变量只有两个状态:0或者1。其中0代表变量所表示的状态不存在;1则代表相应的状态存在。如:给定变量smoker,用以描述一个病人是否吸烟的情况,如用smoker为1表示病人吸烟;若smoker为0表示病人不吸烟。24二元变量的相异度计算差异矩阵法:如果假设所有的二元变量有相同的权重,则
7、可以得到一个两行两列(2*2)的条件表。25二元变量的相异度计算其中:q表示在对象i和对象j中均取1的二值变量个数;r表示在对象i取1但对象j中取0的二值变量个数;s表示在对象i中取0而在对象j中取1的二值变量个数;t则表示在对象i和对象j中均取0的二值变量个数。二值变量的总数为p,则:p=q+r+s+t。26对称?不对称?如果一个二值变量取0或1所表示的内容同等价值,且有相同的权重,则该二元变量是对称的。如,属性“性别”,有两个值“女性”和“男性”,两个取值都没有优
此文档下载收益归作者所有