聚类分析算法学习报告.ppt

聚类分析算法学习报告.ppt

ID:49500063

大小:379.00 KB

页数:31页

时间:2020-02-06

聚类分析算法学习报告.ppt_第1页
聚类分析算法学习报告.ppt_第2页
聚类分析算法学习报告.ppt_第3页
聚类分析算法学习报告.ppt_第4页
聚类分析算法学习报告.ppt_第5页
资源描述:

《聚类分析算法学习报告.ppt》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、聚类分析算法——学习汇报聚类分析概述宁夏大学·数学与计算机学院1、什么是聚类?聚类(clustering)是将物理或抽象对象的集合分组成为多个类或簇(cluster)的过程,使得在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。2、与分类的不同它要划分的类是未知的。即聚类是一种无指导学习,它不依赖预先定义的类和带类标号的训练实例。聚类分析的应用聚类分析已经广泛的用在许多应用中,包括模式识别、数据分析、图像处理以及市场研究。典型的应用:(1)商业:帮助市场分析人员从客户基本库中发现不同的客户群,并且用不同的购买模式描述不同客户群的特征。(2

2、)生物学:推导植物或动物的分类,活的对种群固有结构的认识。(3)WEB文档分类(4)其他:地球观测数据库中相似地区的确定各类保险投保人的分组,一个城市中不同类型、价值、地理位置房子的分组等。(5)作为其他数据挖掘算法的预处理:即先进行聚类,然后再进行分类等其他数据挖掘宁夏大学·数学与计算机学院聚类分析的要求宁夏大学·数学与计算机学院可伸缩性处理不同类型属性的能力发现任意形状的聚类用于决定输入参数的领域知识最小化处理噪声数据的能力对于输入记录的顺序不敏感高维性基于约束的聚类可解释性和可用性聚类分析中的数据类型宁夏大学·数学与计算机学院聚类分析中数据类型用于

3、度量对象间的相异度,常用的数据类型:区间标度变量二元变量标称型、序数型和比例标度型变量混合类型变量区间标度变量宁夏大学·数学与计算机学院1、区间标度变量是一个粗略线性标度的连续度量。典型的例子包括重量和高度,经度和纬度坐标,以及大气温度。2、选择不同的度量单位(如“米”与英尺、“千克”与“磅”等)将直接影响聚类分析的结果。3、为了避免聚类分析对度量单位的依赖性,数据需要进行标准化。4、怎样将一个变量的数据标准化呢?为了实现度量值的标准化,一种方法是将原来的度量值转换为无单位的值。度量值的标准化宁夏大学·数学与计算机学院(1)计算平均的绝对偏差(meana

4、bsolutedeviation):其中:(2)计算标准化的度量值,或(z-score):对象间的相异度计算欧几里德距离:曼哈坦距离:明考斯基距离:宁夏大学·数学与计算机学院聚类分析中的数据类型宁夏大学·数学与计算机学院聚类分析中数据类型用于度量对象间的相异度,常用的数据类型:区间标度变量二元变量标称型、序数型和比例标度型变量混合类型变量二元变量宁夏大学·数学与计算机学院一个二元变量只有两个状态:0或者1,0表示该变量为空,1表示该变量存在。如果假设所有的二元变量有相同的权重,则得到一个两行两列的可能性表。在下面这个表中,a是对于对象i和j值都为1的变量

5、的数目,b是对于对象I值为1而对象j的值为0的变量数目,s是对于对象c值为0而在对于对象j值为1的变量数目,d是对于对象i和j的值都为0的变量的数目。变量的总数是p,p=a+b+c+d。ObjectjObjecti基于对称二元变量的相似度称为恒定的相似度,即当一些或者全部二元变量编码改变时,计算结果不会发生变化。如果二元变量的两个状态的输出不是同样重要,则该二元变量是不对称的。基于这样变量的相似度被称为非恒定的相似度。二元变量相似度的计算宁夏大学·数学与计算机学院聚类分析中的数据类型宁夏大学·数学与计算机学院聚类分析中数据类型用于度量对象间的相异度,常用

6、的数据类型:区间标度变量二元变量标称型、序数型和比例标度型变量混合类型变量1、标称型变量标称变量(nominal)是二元变量的推广,它可以具有多于两个的状态值。例如,map-color是一个标称变量,它可能有五个状态:红色,黄色,绿色,粉红色和蓝色。两个对象I和j之间的相异度可以用两种方法来计算:(1)简单匹配方法M是匹配的数目,P是全部变量的数目(2)使用二元变量为每一个状态创建一个新的二元变量,可以用非对称的二元变量来编码标称变量。标称型变量宁夏大学·数学与计算机学院一个离散的序数(ordinal)型变量类似于标称变量,除了序数型变量的M个状态是以有

7、意义的序列排序的。在计算对象的相异度时,序数型变量的处理与区间标度变量非常类似。(1)将xif用它对应的秩代替。(2)将每个变量的值域映射到[0.0,1.0]上,使得每个变量都有相同的权重。这通过用zif来替代rif来实现。(3)用前面所述的区间标度变量的任一种距离计算方法来计算。序数型变量宁夏大学·数学与计算机学院用比例标度型变量描述对象之间相异度有以下三种方法:(1)采用与处理区间标度变量相同的方法。(2)对比例标度型变量进行对数变换,如:yif=log(xif)然后再对变换得到的值按区间标度的值处理。(3)将其作为连续的序数型数据,将其秩作为区间标

8、度的值来对待。比例标度型变量宁夏大学·数学与计算机学院聚类分析中的数据类型宁夏大

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。