人工智能聚类分析作业课件

人工智能聚类分析作业课件

ID:18058124

大小:5.48 MB

页数:73页

时间:2018-09-13

人工智能聚类分析作业课件_第1页
人工智能聚类分析作业课件_第2页
人工智能聚类分析作业课件_第3页
人工智能聚类分析作业课件_第4页
人工智能聚类分析作业课件_第5页
资源描述:

《人工智能聚类分析作业课件》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、聚类方法(Clustering)人工智能技术导论——张少宏广州大学计算机学院内容1.聚类方法原理介绍1.1什么是聚类1.2为什么聚类1.3聚类问题特征1.4主要聚类算法的分类1.5聚类方法的不稳定性2.案例分析心肌细胞数据聚类(层次聚类,Kmeans)中国男足近几年到底在亚洲处于几流水平?(Kmeans)某移动公司客户细分模型(Kmeans,使用SPSS)3.推荐参考书目1.聚类方法原理介绍1.1什么是聚类1.2为什么聚类1.3聚类问题特征1.4主要聚类算法的分类1.5聚类方法的不稳定性1.1什么是聚类聚类(Clustering)就是在没有指导信息下将数据分组成为多个类(Cluster

2、,一般也译为簇)。最大特点:没有指导信息(无监督学习)最大化类内相似度,最小化类间相似度或者最大化类间距离,最小化类内距离。分类和聚类的区别分类:有指导信息(训练集)相关生活例子:教小孩认车牌聚类:没有指导信息相关生活例子:课程设计组队聚类分析举例1“物以类聚,人以群分”聚类的应用领域经济领域:帮助市场分析人员从客户数据库中发现不同的客户群谁喜欢打国际长途,在什么时间,打到那里?对住宅区进行聚类,确定自动提款机ATM的安放位置企业信用等级分类……生物医学领域推导植物和动物的分类;对基因分类,获得对种群的认识癌症病人基因表达数据分析有贡献的研究领域数据挖掘聚类可伸缩性、各种各种复杂形状类

3、的识别,高维聚类等统计学主要集中在基于距离的聚类分析机器学习无指导学习(聚类不依赖预先定义的类,不等同于分类)空间数据技术生物学市场营销学1.2为什么需要聚类现实生活中数据太多,但是获得数据中的模式知识太少,不可能都靠人鉴别。股票交易分析网页文件聚类分析社交网络团体检测(communitydetectioninsocialnetwork)……有些数据中的分类模糊用户分类分析:每一个类别里面的人消费方式都不一样,需要针对不同的人群,制定不同的关系管理方式,以提高客户对公司商业活动的相应率。用户习惯分析:没有明确定义习惯的方法聚类分析在人工智能方法各阶段的作用表征–计算–衡量在表征阶段,聚

4、类常用于过滤数据点和特征选择;在计算阶段,聚类是重要应用技术;在衡量阶段,聚类常用于在大量数据中提取参考模式。1.3聚类问题特征聚类分析中“类”的特征——无监督学习聚类所说的类不是事先给定的,而是根据数据的相似性和距离来划分聚类的数目和结构可能都没有事先假定聚类的主观性部分指导的聚类分析提供部分指导信息(约束聚类)数据变量类型和距离定义聚类的主观性聚类方法的目的是寻找数据中:潜在的自然分组结构感兴趣的关系聚类的主观性不同情况下对自然分组结构有着不同理解聚类的主观性什么是自然分组结构Naturalgrouping?我们看看以下的例子:有16张牌如何将他们分为一组一组的牌呢?AKQJ聚类的

5、主观性分成四组每组里花色相同组与组之间花色相异AKQJ花色相同的牌为一副聚类的主观性分成四组符号相同的牌为一组AKQJ符号相同的的牌聚类的主观性分成两组颜色相同的牌为一组AKQJ颜色相同的配对聚类的主观性这个例子告诉我们,分组的意义在于我们怎么定义并度量“相似性”Similarity因此衍生出一系列度量相似性的算法AKQJ如何部分修正聚类的主观性? 约束聚类例子MLCLML(A1,A2):数据点A1,A2必须在同一个类.CL(B3,A3):数据点B3,A3必须在不同的两个类.数据变量类型变量按测量尺度(MeasurementLevel)分类名义尺度变量(Nominal)类别变量,不可加

6、减也不可比大小,如性别、职业等有序尺度变量(Ordinal)等级变量,不可加减,但可比较大小,如奖学金、名次等间隔尺度变量(Interval)区间变量,可以加减但不能比较倍数,如年份、经纬度等比率尺度变量(Ratio)定比变量,可以加减也可以比较倍数,如身高、体重等扩展阅读https://en.wikipedia.org/wiki/Level_of_measurement数据变量类型按照数据结构分:结构化数据:即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据例子:学生档案数据非结构数据:不方便用数据库二维逻辑表来表现的数据例子:图象、声音、超媒体、基于网络的变量等信息混杂

7、变量类型的数据如何聚类?当对象是同时被各种类型的变量描述时,怎样描述对象之间的相异度呢?学生数据:【性别,身高,奖学金等级】传统办法:把所有变量一起处理,将不同类型的变量组合在单个相异矩阵中,把所有有意义的变量转换到【0,1】的区间上,再进行聚类分析。新方法:将不同类别变量数据分别聚类再合并聚类融合(ClusterEnsembles)聚类融合,再对一致矩阵进行聚类处理类别向量相关矩阵一致矩阵距离/相似性定义最常用的数值型数据相似性Similar

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。