欢迎来到天天文库
浏览记录
ID:56785456
大小:167.00 KB
页数:4页
时间:2020-07-11
《Clementine示例03-聚类分析.doc》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、3.聚类分析(cluster.str)聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。它是一种重要的人类行为。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。聚类分析的目标就是在相似的基础上收集数据来分类。聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。从统计学的观
2、点看,聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中,如SPSS、SAS等。从机器学习的角度讲,簇相当于隐藏模式。聚类是搜索簇的无监督学习过程。与分类不同,无监督学习不依赖预先定义的类或带类标记的训练实例,需要由聚类学习算法自动确定标记,而分类学习的实例或数据对象有类别标记。聚类是观察式学习,而不是示例式的学习。从实际应用的角度看,聚类分析是数据挖掘的主要任务之一。而且聚类
3、能够作为一个独立的工具获得数据的分布状况,观察每一簇数据的特征,集中对特定的聚簇集合作进一步地分析。聚类分析还可以作为其他算法(如分类和定性归纳算法)的预处理步骤。Clementine提供了多种可用于聚类分析的模型,包括Kohonen,Kmeans,TwoStep方法。示例Cluster.str是对人体的健康情况进行分析,通过测量人体类胆固醇、Na、Ka等的含量将个体归入不同类别。示例中采用了三种方法对数据进行分类,这里我们重点讨论Kmeans聚类方法。Step一:读入数据和前两步一样,在建立数据流时首先应读入数据文件。该示例中数据文件存储为DRUG
4、1n,我们向数据流程区内添加可变文件(Var.File)结点读入数据。Step二:为数据设置字段格式将Type结点连入数据流,通过编辑该结点对数据字段进行设置。在机器学习方法中聚类被称为无导师的学习。所谓无导师的学习是指事先并不知道数据的分类情况,就像在决策树方法中我们通过已知的某个结点值来建立模型,在聚类方法中所有参与聚类的字段在设置字段格式时其方向(Direction)都将被设置为输入(In)。Step三:生成聚类分析数据流设置好字段格式后我们将Kmeans结点加入到数据流。在编辑Kmeans结点时我们重点需要定义将要其分成的类别数,这个属性在聚
5、类数(Specifiednumberofcluster)中设定。数据流建立好后,右键单击Kmeans结点选择执行该数据流。执行结果以与Kmean同名的结点显示在管理器的Models窗口中,浏览该结点我们能够得到关于分类的信息,如下图所示:Step四:图形化输出各个类的组成情况查看各类中的情况除了浏览结果结点外,我们还可以选择用图形将结果显示出来。4.1将模型的结果结点连入数据流。选中Type结点,双击Models窗口中的Kmeans结果结点将该结点连接到Type后;4.2设置图形输出结点选择Graph栏中的分布图Distribution结点将它连接到
6、Kmeans结果结点后,双击该结点对它进行设置。在Field栏中选择$KM-Kmeans选项,该选项保存了分类结果,即每个样本在聚类后所属的类别。Distribution结点要求Field栏为非数据结点。在Overlay选项中我们选择Drug项,这是为了研究在不同的分类类别里Drug的各个取值的所占比例。运行该数据流我们可得到下图,图中详细的显示了不同Drug类型在各个类别里的分布情况。同样道理,我们也可以对其他属性进行研究。P.S.:在这个聚类分析的案例中我们用到了Kmeans、Distribution结点。
此文档下载收益归作者所有