数据挖掘课件--数据聚类

数据挖掘课件--数据聚类

ID:39712484

大小:851.51 KB

页数:82页

时间:2019-07-09

数据挖掘课件--数据聚类_第1页
数据挖掘课件--数据聚类_第2页
数据挖掘课件--数据聚类_第3页
数据挖掘课件--数据聚类_第4页
数据挖掘课件--数据聚类_第5页
资源描述:

《数据挖掘课件--数据聚类》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第8章数据聚类13.1引言3.2相似性度量3.3聚类准则3.4基于试探的两种聚类算法3.5系统聚类法3.6动态聚类3.7聚类评价主要内容23.1引言聚类:将数据分组成为多个类别,在同一个类内对象之间具有较高的相似度,不同类之间的对象差别较大。根据各个待分类的模式特征相似程度进行分类,相似的归为一类,不相似的作为另一类。监督学习:需要用训练样本进行学习和训练非监督学习:对于没有类别标签的样本集,根据该问题本身的目的和样本的特性,把全体N个样本划分为若干个子集,同类样本特性相差小,异类样本特性相差大。3聚类应

2、用花瓣的“物以类聚”4聚类应用早在孩提时代,人就通过不断改进下意识中的聚类模式来学会如何区分猫和狗,动物和植物谁经常光顾商店,谁买什么东西,买多少?按照卡记录的光临次数、光临时间、性别、年龄、职业、购物种类、金额等变量分类这样商店可以….识别顾客购买模式(如喜欢一大早来买酸奶和鲜肉,习惯周末时一次性大采购)刻画不同的客户群的特征5聚类应用挖掘有价值的客户,并制定相应的促销策略:如,对经常购买酸奶的客户对累计消费达到12个月的老客户针对潜在客户派发广告,比在大街上乱发传单命中率更高,成本更低!6聚类应用谁是

3、银行信用卡的黄金客户?利用储蓄额、刷卡消费金额、诚信度等变量对客户分类,找出“黄金客户”!这样银行可以制定更吸引的服务,留住客户!比如:一定额度和期限的免息透支服务!商场的贵宾打折卡!在他或她生日的时候送上一个小蛋糕!7聚类应用经济领域:帮助市场分析人员从客户数据库中发现不同的客户群,并且用购买模式来刻画不同的客户群的特征。谁喜欢打国际长途,在什么时间,打到那里?对住宅区进行聚类,确定自动提款机ATM的安放位置股票市场板块分析生物学领域推导植物和动物的分类;对基因分类,获得对种群的认识数据挖掘领域作为其他

4、数学算法的预处理步骤,获得数据分布状况,集中对特定的类做进一步的研究8聚类分析原理聚类分析中“类”的特征:聚类所说的类不是事先给定的,而是根据数据的相似性和距离来划分聚类的数目和结构都没有事先假定9聚类分析原理聚类方法的目的是寻找数据中:潜在的自然分组结构感兴趣的关系10聚类分析原理什么是自然分组结构?有16张牌,如何将他们分组呢?AKQJ11聚类分析原理分成四组:每组里花色相同,组与组之间花色相异AKQJ花色相同的牌为一组12聚类分析原理分成四组,符号相同的牌为一组AKQJ符号相同的的牌为一组13聚类分

5、析原理分成两组,颜色相同的牌为一组AKQJ颜色相同的牌为一组14聚类分析原理分组的意义在于我们怎么定义并度量“相似性”因此衍生出一系列度量相似性的算法15聚类分析原理相似性的度量(统计学角度)距离Q型聚类(主要讨论)主要用于对样本分类常用的距离有:明考夫斯基距离(包括:绝对距离、欧式距离、切比雪夫距离)兰氏距离马氏距离斜交空间距离此不详述,可参考《应用多元分析》(第二版)王学民16聚类分析原理相似系数R型聚类用于对变量分类,可以用变量之间的相似系数的变形,如1-rij定义距离17聚类分析原理变量按测量尺度

6、分类间隔尺度变量连续变量,如长度、重量、速度、温度等有序尺度变量等级变量,不可加,但可比,如一等、二等、三等奖学金名义尺度变量类别变量,不可加也不可比,如性别、职业等183.2相似性度量聚类分析符合“物以类聚,人以群分“的原则,它把相似性大的样本聚集为一个类型聚类分析的关键问题:如何在聚类过程中自动地确定类型数目19相似性度量20相似性度量距离相似性度量角度相似性度量21距离相似性度量模式样本向量与之间的欧氏距离定义为:若距离阈值ds选择过大,则全部样本被视作一个唯一类型;若ds选取过小,则可能造成每个样

7、本都单独构成一个类型22距离相似性度量距离阈值对聚类的影响23距离相似性度量特征选取不当使聚类无效特征选取不足引起误分类模式特征坐标单位的选取也会强烈地影响聚类结果24距离相似性度量特征选取不当使聚类无效1225距离相似性度量特征选取不足引起误分类12326距离相似性度量acbd27解决尺度问题——标准化28解决尺度问题为了进行聚类,我们需要一种合适的距离度量尺度。这种距离度量尺度依赖于特征标准化方法为了选择标准化方法我们必须知道聚类的类型试错法是唯一的避免这种恶性循环的方法。选择不同的条件进行试验,通过

8、观察、数据解释和效用分析评价相应的解。平衡各特征值的贡献,并保持原有的语义信息。29角度相似性度量样本与之间的角度相似性度量定义为它们之间夹角的余弦303.3聚类准则相似性度量→集合与集合的相似性相似性准则→分类效果好坏的评价准则聚类准则:试探法定义一种相似性度量的阈值聚类准则函数法聚类准则是反映类别间相似性或分离性的函数误差平方和准则(最常用的)加权平均平方距离和准则31误差平方和准则假定有混合样本X={x1,x2,…,xn

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。