欢迎来到天天文库
浏览记录
ID:48980524
大小:535.50 KB
页数:22页
时间:2020-02-26
《基于快速聚类法的植物分类.doc》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、基于快速聚类法的植物分类摘要本文主要讨论根据某植物的萼片及花瓣的长宽数据运用快速聚类法进行分类的问题。针对问题一,将数据录入EXCEL表格,运用快速聚类法并采用欧氏距离将Iris数据分成3类,利用SAS软件求解可得3类的频数分别为51、35及64。针对问题二,同问题一的做法但采用绝对距离将数据分成3类,利用SAS软件求解可得3类的频数分别为51、37及62。针对问题三,同问题一的做法但采用距离()将数据分成3类,利用SAS软件求解可得3类的频数分别为51、37及62。在分类数不确定的情况下将模型进行推广,利用快速聚类法和SAS软件对各类结
2、果进行比较分析,得出较好的分类。关键词快速聚类法;SAS软件;欧氏距离;绝对距离;距离22一、问题重述植物是生命的主要形态之一,不同种类的植物形状一般不同。土壤环境,空气,阳光等都会影响植物的种类及形状,通过观察植物的形态对人类更好的了解植物有很大作用。现对某三种不同种类的植物的叶片及花瓣的长、宽进行调查。为此,取三个种类的植物,每个种类取50个样本,分别测量出每个样本的萼片长、宽及花瓣长、宽。为了更准确地将植物分类,根据题目中所给数据,解决以下问题:问题一:用快速聚类法将这些数据分成3类,并写出分类结果;问题一:用快速聚类法并采用绝对距
3、离将这些数据分成3类,写出分类结果;问题一:用快速聚类法并采用距离()将这些数据分成3类,写出分类结果。二、问题分析聚类分析是研究分类问题的多元数据分析方法,为了解植物的本质特征,往往需要划分不同的类型去研究,当样品容量较大时,采用快速聚类法比较准确,快速聚类法先将样品粗略的分一下类,然后再按某种原则进行修改,直至分类比较合理为止。本文数据量较大,采取快速聚类法进行分类快速有效。取某植物的三个种类,每个种类取50个样本,分别测量出每个样本的萼片长、宽及花瓣长、宽。利用SAS软件对Iris数据运用快速聚类法分别采用欧氏距离、绝对距离及距离(
4、),从中选择出适当的聚点,进而对数据进行分类。三、基本假设1.数据均真实有效可操作;2.样本均是随机选取;3.不考虑人为因素,检测仪器精确度不同的影响。四、符号表示萼片长萼片宽花瓣长花瓣宽第种类的样本22五、模型的建立与求解5.1快速聚类法(欧式距离)利用SAS软件对Iris数据采用欧氏距离进行快速聚类分析(见附录中程序1),初始聚点如表1所示:表1初始聚点聚类158.0000000040.0000000012.000000002.00000000277.0000000038.0000000067.0000000022.000000003
5、57.0000000019.0000000042.0000000013.00000000聚点1、2和3对应的样品号分别为60、21和77号。分3类的聚类结果如表(见附录中表1)所示,从聚类的情况具体分析,第一类属于萼长居中,萼宽最宽,花瓣长和宽最小的样品,大部分为种;第二类属于萼长最长,萼宽居中,花瓣长和宽最大的样品,大部分为种;第一类属于萼长和萼宽最小,花瓣长和宽居中的样品,大部分为种。三种植物总共150个样本分为三类,第一类包含51个样本,离聚点的最大距离是18.0043;第二类包含35个样本,离聚点的最大距离是13.7788;第三类
6、包含64个样本,离聚点的最大距离是17.9732。聚类的大致情况见表2:表2150个样品分3类情况类号频数类内到聚点最大距离最邻近类至最邻近类距离15118.0043333.643423513.7788318.363236417.9732218.3632类间距离有助于分析类间的接近程度,第3类与第2类的距离最小,为18.3632,所以第3类与第2类最相近。三个类的变量的样本均值与标准差如表3和表4所示:表3三个类的变量的样本均值聚类150.2352941234.0588235314.686274512.76470588268.742857
7、1430.6285714357.9142857121.17142857359.1718750027.2812500044.2343750014.2968750022表4三个类的变量的样本标准差聚类13.7072266474.3054001661.7831454912.41319900024.9784409163.4307066184.6864725762.36998032134.9330588323.1089668065.2937285072.931382942根据样本均值与标准差可知:1、2、3类的数据基本都集中在均值附近,第三类的数据
8、分布没有第一类集中。5.2快速聚类法(绝对距离)利用SAS软件对Iris数据采用绝对距离进行快速聚类分析(见附录中程序2),初始聚点如表5所示:表5初始聚点聚类158.0000000040.0
此文档下载收益归作者所有