聚类分析论文

聚类分析论文

ID:69430632

大小:390.50 KB

页数:17页

时间:2021-11-21

聚类分析论文_第1页
聚类分析论文_第2页
聚类分析论文_第3页
聚类分析论文_第4页
聚类分析论文_第5页
聚类分析论文_第6页
聚类分析论文_第7页
聚类分析论文_第8页
聚类分析论文_第9页
聚类分析论文_第10页
资源描述:

《聚类分析论文》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、.-聚类分析及其在新疆经济研究中的应用鹿梅〔伊犁师学院数学与统计学院新疆伊宁835000〕摘要:本文论述聚类分析的根底理论和研究方法,包括系统聚类法和-均值法,并以新疆十四个地州市2021的地区生产总值、人均地区生产总值等十项综合经济指标为样本,利用SPSS软件,对他们的综合开展水平进展类型划分及差异性程度分析.关键词:聚类分析;SPSS软件;综合经济指标;新疆经济区划分一、引言聚类(clustering)是指根据“物以类聚〞原理,将本身没有类别的样本聚集成不同的组,这样的一组数据对象的集合叫做簇,并且

2、对每一个这样的簇进展描述的过程.它的目的是使得属于同一个簇的样本之间应该彼此相似,而不同簇的样本应该足够不相似.聚类技术正在蓬勃开展,涉及围包括数据挖掘、统计学、机器学习、空间数据库技术、生物学以及经济学等各个领域,聚类分析已经成为数据挖掘研究领域中一个非常活泼的研究课题.聚类分析可用于对某省各地区经济开展划分为各个经济区、也可用于市场细分、目标客户定位、业绩评估等多方面.在社会经济研究中,经常需要对所研究的区域进展经济区划分,以便进展分类指导.如何进展经济区划分呢?利用世界著名统计软件SPSS〔Sta

3、tisticalProgramforSocial-.word.zl.-Science〕的聚类分析功能,效果比较理想.聚类分析包含的容很广泛,可以有系统聚类法、动态聚类法、分裂法、最优分割法、模糊聚类法、图论聚类法、聚类预报等多种方法,其中应用最为广泛的是系统聚类法和-均值法.由于西部发开发战略的实施和援疆工作的展开,新疆经济的开展迅速,但由于新疆地广,各地区之间的经济差异很大,要让新疆经济均衡开展,就要对新疆各地区的不同实施不同的经济政策.我分别用了SPSS的聚类分析中的系统聚类法和-均值法对新疆各地区

4、的进展经济区划分,以对新疆各地区实施不同的经济政策做依据.二、根底知识2.1聚类分析的根本思想由于所研究的样品或变量之间存在着程度不同的相似性,故根据一批样品的多个观测变量,找出能够度量样品或变量之间相似程度的统计量,并以此为根据,采用某种聚类法,将所有的样品或变量分别聚合到不同的类中,使同一类中的个体有较大的相似性,不同类中的个体差异较大.2.2聚类分析的种类聚类分析的目的是将所研究对象进展分类.它是在事先不知道类别的情况下对数据进展分类的分析方法.聚类分析不仅可以对样品进展分类,也可以用来对变量进展

5、分类.对样品的分类常称为型聚类分析,对变量的分类常称为型聚类分析.2.3聚类分析的原理聚类分析是研究多要素事物分类问题的数量方法.根本原理是根据样本自身的属性,用数学方法按照某种相似性或差异性指标,定量地确定样本之间的亲疏关系,并按这种亲疏关系程度对样本进展聚类.常见的聚类分析方法有系统聚类法、-均值法和模糊聚类法等.2.3.1聚类要素的数据处理假设有-.word.zl.-个聚类的对象,每一个聚类对象都有多个要素构成.一般都有不同的量纲,不同的数量级单位,不同的取值围,为了使不同量纲,不同取值围的数据能

6、够放在一起比较,通常需要对数据进展变换处理.在聚类分析中,常用的聚类要素的数据处理方法有如下几种.①总和标准化.②标准差标准化,,.,.变换后的数据,每个变量的样本均值为0,极差为1,且,在以后的分析计算中可以减少误差的产生;同时变换后的数据也是无量纲的量.③极大值标准化.经过这种标准化所得的新数据,各要素的极大值为1,其余各数值小于1.④极差的标准化.-.word.zl.-经过这种标准化所得的新数据,各要素的极大值为1,极小值为0,其余的数值均在0与1之间.2.3.2样品间的距离和相似系数〔1〕距离的

7、计算描述样品间的亲疏程度最常用的是距离,设观测数据列成以下矩阵的形式.设有个样品,每个样品测得个变量,原始资料阵为,其中为个样品的第个变量的观测数据.用表示第个样品的第个样品之间的距离,其值越小表示两个样品接近程度越大.距离的一般要求:①②③常用的距离有以下几种:1〕闵氏距离,其中常用的距离有绝对距离和欧氏距离.绝对距离-.word.zl.-.欧氏距离.欧氏距离是常用的距离,但它也有缺乏之处,一是它没有考虑到总体的变异对“距离〞远近的影响,显然一个变异程度大的总体可能与更多样品近些,即使它们的欧氏距离不

8、一定最近;另外,欧氏距离受变量的量纲影响,这对多元数据的处理是不利的.通常我们需要先对数据近些标准化处理,然后用标准化后的数据计算距离.2)马氏距离设与是来自均值向量为,协方差为的总体中的维样品,那么两个样品间的马氏距离为.马氏距离又称为广义欧几里得距离,显然马氏距离与上述各种距离的主要不同就是考虑到了观测变量之间的相关性.如果各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵,对马氏距离就退化为用各个观测指标的标准差的倒数作为权数的加权

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。