北航数理统计大作业聚类分析报告

北航数理统计大作业聚类分析报告

ID:36729719

大小:137.48 KB

页数:18页

时间:2019-05-14

北航数理统计大作业聚类分析报告_第1页
北航数理统计大作业聚类分析报告_第2页
北航数理统计大作业聚类分析报告_第3页
北航数理统计大作业聚类分析报告_第4页
北航数理统计大作业聚类分析报告_第5页
资源描述:

《北航数理统计大作业聚类分析报告》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、实用标准文案应用数理统计聚类分析与判别分析(第二次作业)学院:姓名:学号:精彩文档实用标准文案2015年12月精彩文档实用标准文案目录我国部分城市经济发展水平的聚类分析和判别分析4摘要:41.引言42.相关统计基础理论42.1聚类分析42.2判别分析53.模型建立63.1设置变量63.2数据收集和整理64.数据结果及分析84.1聚类分析84.2判别分析105.结论14参考文献15精彩文档实用标准文案我国部分城市经济发展水平的聚类分析和判别分析摘要:本文基于《中国统计年鉴》(2014年版)统计数据,统计全国各省市居民消费情况,包括各地区农村居民人均纯收入、农村居民人均

2、现金消费、城镇居民人均可支配收入、城镇居民人均现金消费情况共4个指标,利用统计软件SPSS综合考虑各指标,对所选地区进行K-Means聚类分析,利用Fisher线性判别待判地区类型,进一步验证所建模型的有效性。关键字:聚类分析,判别分析,SPSS,各省市居民消费1.引言改革开放以来,我国经济飞速发展,居民生活水平不断提高,随之,居民的消费也逐渐增加,对于各地区的居民收入和消费的分析,一定程度上能够体现该地区的经济状况,有助于相关政策的制定。2.相关统计基础理论2.1聚类分析聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。聚类分析的目标就是

3、在相似的基础上收集数据来分类。从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中,如SPSS、SAS等。本文使用统计软件SPSS对所收集的数据进行快速聚类,其特点是:在确定类别数量基础上,先给定一个粗糙的初始分类,然后按照某种原则进行反复修改,直至分类较为合理。在选定类中心作为凝聚点的基础上进行分类和修正的方法有很多,本文使用的是K-Means算法。K-Means算法接受输入

4、量k;然后将n个数据对象划分为k精彩文档实用标准文案个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”(引力中心)来进行计算的。K-Means算法的工作过程说明如下:首先从n个数据对象任意选择k个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数

5、。一般而言,k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。2.2判别分析判别分析是市场研究的重要分析技术,也是多变量分析技术。它可以就一定数量的个体的一个分类变量和相应的其它多元变量的已知信息,确定分类变量与其它多元变量之间的数量关系,建立判别函数,并利用判别函数构建Biplot二元判别图(概念图)。同时,利用这一数量关系对其他已知多元变量的信息、但未知分组的子类型的个体进行判别分组。判别分析属于监督类分析方法,例如:市场细分研究中,常涉及判别个体所属类型的问题,也常涉及不同品牌在一组产品属性之间的消费者偏好和认知概念,判别分析可以很好地对

6、这种差异进行鉴别。并在低维度空间表现这种差异。判别分析主要有距离判别、贝叶斯(Bayes)判别、费舍尔(Fisher)判别等几种常用方法。距离判别的基本原理是:首先对样本到总体G之间的距离进行合理规定,然后依照“就近”原则判定样本的归属,常用马氏距离(Mahalanobis)规定为:式中为p元总体G的协方差阵,x是取自G的样品,则该式即为样品x到总体G的马氏距离。贝叶斯判别既考虑了先验分布产生的影响,也考虑到误判损失产生的影响,是衡量一个判别优劣的比较合理的准则。精彩文档实用标准文案费舍尔判别的基本思想与主成分分析十分相似,当总体是高维向量时,先把其综合成一个一维变

7、量,然后在对一维变量进行距离判别,费舍尔判别实际上是一种降维处理,降维压缩后,样品y到各个总体的距离可以用欧式距离度量,即:由此导出Fisher判别规则为:,则本文及使用Fisher判别建立线性判别函数进行距离判别。1.模型建立3.1设置变量本文综合考虑了评价各地区居民的收入支出情况,选取能够反映一个省(市)收支状况的主要因素,包括各地区农村居民人均纯收入、各地区农村居民人均现金消费、各地区城镇居民人均可支配收入、各地区城镇居民人均现金消费,共4项因素:X1:各地区农村居民人均纯收入X2:各地区农村居民人均现金消费X3:各地区城镇居民人均可支配收入X4:各地区城

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。