资源描述:
《Clementine示例03-聚类分析》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、3.聚类分析(cluster,str)聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。它是一种重要的人类行为。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇屮的对象有很大的相似性,而不同簇间的对象有很大的相异性。聚类分析的訂标就是在相似的基础上收集数据來分类。聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到
2、不同的簇中。从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包扌舌系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用k-均值、k-屮心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包屮,女吧PSS、SAS等。从机器学习的角度讲,簇相当于隐藏模式。聚类是搜索簇的无监督学习过程。与分类不同,无监督学习不依赖预先定义的类或带类标记的训练实例,需要由聚类学习算法口动确定标记,而分类学习的实例或数据对象有类别标记。聚类是观察式学习,而不是示例式的学习。从实际应用的
3、角度看,聚类分析是数据挖掘的主耍任务之一。而且聚类能够作为一个独立的工具获得数据的分布状况,观察每一簇数据的特征,集中对特泄的聚簇集合作进一步地分析。聚类分析还可以作为其他算法(如分类和定性归纳算法)的预处理步骤。Clementine提供了多种可用于聚类分析的模型,包括Kohonen,Kmeans,TwoStep方法。示例Cluster,str是对人体的健康情况进彳亍分析,通过测量人体类胆固醇、Na.Ka等的含量将个体归入不同类别。示例中采用了三种方法对数据进行分类,这里我们重点讨论Kmcans聚类方法。Step-:读入数据和
4、前两步一样,在建立数据流时首先应读入数据文件。该示例屮数据文件存储为DRUGln,我们向数据流程区内添加可变文件(Var.File)结点读入数据。可变文件F:11.1DemosDRUG1nIQAge?Sex?BP,Cholesterol丿Na,K丿Drug23,F,HIGH,HIGH,0.792535,0.031258,drugY47,LOW,HIGH,0.739309,0.056468,drugC47,M,叽HIGH,0.697269,0.068944,drugC▲▼们►文件:F:11.1DemosDRUG1n回
5、读取文件中的字段名□指定字段数0▲▼跳过前面的N个字符:EOL注解字符:Step二为数据设置字段格式将Type结点连入数据流,通过编辑该结点対数据字段进行设置。在机器学习方法中聚类被称为无导师的学习。所谓无导师的学习是指事先并不知道数据的分类情况,就像在决策树方法中我们通过已知的某个结点值來建立模型,在聚类方法中所冇参与聚类的字段在设置字段格式时其方向(Direction)都将被设置为输入仃n)。画列[»读取值[有值°J入入入入入入入输输输输输输输无无无无无无无POTPOTPOTPOTPOTPQTiLkAbkAbkAbkAbk
6、iLkN・-<<<<<<<续散散散续续散连离离离连连离炉乡乡乡WXex)gepAsBoaasssgaruNKD◎查看当前字段0查看未使用的字段设置类型格式注解i确定(0)取消(C)—应―置®Step三:生成聚类分析数据流设置好字段格式后我们将Kmeans结点加入到数据流。在编辑Kmeans结点时我们重点需要定义将要比分成的类别数,这个属性在聚类数(Specifiednumberofcluster)中设定。数据流建立好后,右键单击Kmeans结点选择执行该数据流。执行结果W-4/Kmcan同名的结点显示在管理器的Models窗口
7、屮,浏览该结点我们能够得到关于分类的信息,如下图所示:Step四:图形化输出各个类的组成情况杳看各类中的情况除了浏览结果结点外,我们还可以选择用图形将结果显小•出來O4.1将模型的结果结点连入数据流。选屮Type结点,双击Models窗口屮的Kmeans结杲结点将该结点连接到Type后;4.2设置图形输出结点选择Graph栏中的分布图Distribution结点将它连接到Kmeans结果结点后,双击该结点对它进行设置。在Field栏中选择$KM-Kmeans选项,该选项保存了分类结果,即每个样本在聚类后所属的类别。?K-Mea
8、ns字段选项(D)2念泮估时问散口Distribution结点耍求Field栏为非数据结点。在Overlay选项中我们选择Drug项,这是为了研究在不同的分类类别里Drug的各个取值的所占比例。运行该数据流我们可得到下图,图中详细的显示了不同Drug类型在各个类别里的分布情况