聚类分析开题报告

聚类分析开题报告

ID:39505569

大小:336.00 KB

页数:6页

时间:2019-07-04

聚类分析开题报告_第1页
聚类分析开题报告_第2页
聚类分析开题报告_第3页
聚类分析开题报告_第4页
聚类分析开题报告_第5页
资源描述:

《聚类分析开题报告》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、专题讨论实习报告《专题讨论》实习报告题  目:山东省外向型经济发展数据的聚类分析院  系:    直属数理系     专业年级:  信息与计算科学2007级学生姓名: 杨强  学号: 200725072011年  3月 18 日5专题讨论实习报告山东省外向型经济发展数据的聚类分析摘要:山东省外向型经济近几年发展迅速,但省内各地发展很不平衡。本文通过衡量外向型经济发展水平的指标体系,运用聚类分析法对山东省的外向型经济发展区域差异进行实证分析。关键词:外向型经济,区域差异,实证分析,聚类分析。引言近年来,山东省外向型经济发展迅速。年,山东省海关进出口贸易总额为亿美元,同比增长,其中外商投资企业进出

2、口商品总值为亿美元,同比增长;外商直接投资项目数为个,合同FDI为亿美元,实际FDI为亿美元,居全国第三位,仅次于广东省和江苏省;境外投资项目数个,协议投资总额万美元,其中中方协议投资万美元;接待外国旅游人数万人次,国际旅游创汇额为亿美元;对外承包工程和劳务合作合同数个,合同金额亿美元,营业额亿美元,年末在外人数万人。本文通过衡量外向型经济发展水平的指标体系,运用聚类分析法对山东省的外向型经济发展区域差异进行实证分析。达到对山东省整体的外向型经济的整体把握,再通过人工干预的方式。一、聚类分析模型1.相关参数的建立聚类分析是直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归入不同

3、的类。聚类分析事先并不知道对象类别的面貌,甚至连共有几个类别也不确定;它正是从这样的情形下总结出分类方法,用于对新对象的分类。在聚类之前,要首先分析样品间的相似性。型聚类分析,常用距离来测量样品之间的相似程度。每个样品有个指标(变量)从不同方面描述其性质,形成一个维的向量。如果把个样品看成维空间中的个点,则两个样品间相似程度就可用维空间中的两点距离公式来度量。两点距离公式可以从不同角度进行定义,令表示样品与的距离,存在以下的距离公式[1]。(1)闵可夫斯基距离按的取值不同又可分成:绝对距离()5专题讨论实习报告欧几里得距离()切比雪夫距离()(2)马氏距离设是来自均值向量为,协方差为的总体G中

4、的维样品,则两个样品间的马氏距离为马氏距离又称为广义欧几里得距离。显然,马氏距离与上述各种距离的主要不同就是考虑了观察变量之间的相关性。如果各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵,则马氏距离就退化为用各个观测指标的标准差的倒数作为权数的加权欧几里得距离。(3)兰式距离它仅适用于一切的情况,这个距离也可以克服各个指标之量纲的影响。这事一个自身标准化的量,由于它对大的奇异值不敏感,它特别适合于高度偏倚的数据。虽然这个距离有助于克服闵式距离的第一个缺点,但它也没有考虑指标之间的相关性。2.模型的建立有了上述距离的定义我们就可以进行系统聚类了。在进行系统聚类之前,我们首先要定义类与类之间

5、的距离,由肋间距离定义的不同产生了不同的系统聚类法。常用的肋间距离定义有种之多,与之相应的系统聚类法也有种,分别为最短距离法、最长距离法、中间距离法、重心法、类平均法、可变类平均法、可变法和离差平方和法。他们的归类步骤基本上是一致的,主要差异是类间距离的计算方法不同。以下用表示样品与之间距离,用表示类与之间的距离。我们简单的介绍些常用的聚类方法。(1)最短距离法定义类与之间的距离为两类最近样品的距离,即为5专题讨论实习报告设类与合并成一个新类记为,则任一类与的距离为最短距离法进行聚类分析的步骤如下:①定义样品之间距离,计算样品的两两距离,得一距离阵记为,开始每个样品自成一类,显然这时。②找出距

6、离最小元素,设为,则将和合并成为一个新类,记为,即。③按上面的式子计算新类与其他类的距离。④重复(2)、(3)两步,直到所有元素并成一类为止。如果某一部距离最小的元素不止一个,则对应这些最小元素的类可以同时合并。设有六个样品,每个只测量一个指标,分别为试用最短距离法将他们分类。样品间采用绝对距离法得矩阵,见下表:表1:矩阵中最小元素是,于是将和合并成,和合并成并利用公式计算新的距离得下表:5专题讨论实习报告表2:矩阵在上式中于是将合并成一个新类,得下表:表3:矩阵最后将和合并为,这时所有的六个样品聚为一类,过程终止。最长距离法和最短距离法大体上相似,只是在算类间距时,按照:通过上式以及最短距离

7、法的步骤就可以进行最长距离法的聚类。对于中间距离法,重心法,类平均法,可变类平均法,可变法,离差平方和法。只是我们定义的距离之间的参数有所不同,以及合并两类时所需的准则有所不同外,基本原理都是一样的。(2)均值聚类分析调用此过程可完成由用户指定类别数的大样本资料的逐步聚类分析。所谓逐步聚类分析就是先把被聚对象进行初始分类,然后逐步调整,得到最终分类[2]。均值法是麦奎因提出的,这种算法的基本思想是

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。