聚类分析的案例分析教程

聚类分析的案例分析教程

ID:25895514

大小:1.84 MB

页数:76页

时间:2018-11-23

聚类分析的案例分析教程_第1页
聚类分析的案例分析教程_第2页
聚类分析的案例分析教程_第3页
聚类分析的案例分析教程_第4页
聚类分析的案例分析教程_第5页
资源描述:

《聚类分析的案例分析教程》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、聚类分析杨威yangweipyf@163.com西安建筑科技大学“人以类聚,物以群分”。对事物进行分类,是人们认识事物的出发点,也是人们认识世界的一种重要方法。因此,分类学已成为人们认识世界的一门基础学科。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种多元统计方法,所谓类,通俗地说,就是指相似元素的集合。本次主要介绍谱系聚类、K均值聚类、模糊C均值聚类和模糊减法聚类及其MATLAB实现.1距离聚类1.1聚类的思想在社会经济领域中存在着大量分类问题,比如对我国30个省市自治区独立核算工业企业经济效益进行分析,一般不是逐个省

2、市自治区去分析,而较好地做法是选取能反映企业经济效益的代表性指标,如:百元固定资产实现利税、资金利税率、产值利税率、百元销售收入实现利润、全员劳动生产率等等,根据这些指标对30个省市自治区进行分类,然后根据分类结果对企业经济效益进行综合评价,就易于得出科学的分析。由于要考察的物价指数很多,通常先对这些物价指数进行分类。总之,需要分类的问题很多,因此聚类分析这个有用的数学工具越来越受到人们的重视,它在许多领域中都得到了广泛的应用。聚类问题的一般提法是:设有个样品的元观测数据组成一个数据矩阵其中每一行表示一个样品,每一列表示一个指标,

3、表示第个样品关于第项指标的观测值,要根据观测值矩阵X对样品或指标进行分类。分类的思想:在样品之间定义距离,在指标之间定义相似系数.样品距离表明样品之间的相似度,指标之间的相似系数刻画指标之间的相似度.聚类分析的基本思想:将样品(或变量)按相似度的大小逐一归类,关系密切的聚集到较小的一类,关系疏远的聚集到较大的一类,直到所有的样品(或变量)都聚集完毕。向量的距离设有n个样品的p元观测数据这时,每个样品可看成n元空间的一个点,也即一个维向量,两个向量之间的距离记为,满足如下条件:(1)(非负性)且当且仅当(2)(对称性)(3)(三角不

4、等式)在聚类分析中最常用的是欧氏距离。1.欧氏(Euclidean)距离2.绝对距离3.明可夫斯基(Minkowski)距离4.切贝雪夫(Chebyshev)距离其中m(m>0)为常数。5.方差加权(seuclidean)距离6.马氏(mahalanobis)距离其中为样品的协方差矩阵.其中在MATLAB中,计算距离的命令是pdist.调用格式Y=pdist(X,distance)输入的X是一个矩阵,行为个体,列为指标,distance是距离的类型。若缺省distance,则输出的Y是一个行向量,向量的长度为(N-1)*N/2,其

5、中N是样本的容量,Y的元素分别为个体(1,2),(1,3),...,(1,N),(2,3),...(2,N),.....(N-1,N)之间的欧氏距离。可选项distance有:‘euclidean’欧氏距离;‘cityblock’绝对距离;‘minkowski’明氏距离(m=2);‘chebychev’切氏距离;‘seuclidean’方差加权距离;‘mahalanobis’马氏距离;‘jaccard’Jaccard相关系数。省(市)工薪收入(元/人)经营净收入(元/人)财产性收入(元/人)转移性收入(元/人)北京18738.96

6、778.36452.757707.87上海21791.111399.14369.126199.77安徽9302.38959.43293.923603.72陕西8354.63638.7665.332610.61新疆9422.22938.15141.751976.49表省(区、市)城镇居民人均家庭收入例1.12008年我国5省、区、市城镇居民人均年家庭收入如下表为了研究上述5个省、区、市的城镇居民收入差异,需要利用统计资料对其进行分类,指标变量有4个,计算各省、区、市之间的前6种距离解:x=[18738.96778.36452.757

7、707.8721791.111399.14369.126199.779302.38959.43293.923603.728354.63638.7665.332610.619422.22938.15141.751976.49];d1=pdist(x);%或者命令d1=pdist(x,'euclidean')此时计算出各行之间的欧氏距离,为了得到距离矩阵,键入命令:D=squareform(d1);%注意此时d1必须是一个行向量,结果为实对称矩阵D=1.0e+004*00.34621.02931.15751.09440.346201.

8、27631.39321.30801.02931.276300.14280.16391.15751.39320.142800.12801.09441.30800.16390.12800矩阵D中的第3行第2列为12763,表示上海与山西的欧氏距离为12

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。