资源描述:
《《数据分析处理》PPT课件》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、数据处理专题数据处理是指用简明而严格的方法把获得的实验数据所代表的事物内在的规律提炼出来,得出结果的加工过程,包括数据记录、描绘曲线,从带有误差的数据中提取参数,验证和寻找经验规律,外推实验数据等等。本章介绍一些最基本的数据处理方法。§3协方差及相关系数对于二维随机变量(X,Y),除了讨论X与Y的数学期望和方差外,还需讨论描述X与Y之间相互关系的数字特征。这就是本节的内容。定义:数据处理的过程:1、获得数据(标准化处理)。2、将数据分类(聚类分析)。3、提取主要影响因素(主成分分析)。4、数据分析(相关性分析,回归分析)。聚类分析聚类也就是分类,在社会经济领域中存在大量的分
2、类问题,比如三十个省市自治区独立核算工业企业经济效益进行分析,一般不是逐个省市自治区去分析,而较好的做法是选取具有代表性的指标如,百元固定资产实现利税,资金利税率、产值利税率、百元销售收入实现利润、全员劳动生产率等等,根据这些指标对省市自治区分类,然后根据分类结果对企业经济效益进行综合评价。聚类分析方法系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。我们着重讲述系统聚类法。对样品分类成Q分类,对指标分类称R分类聚类的三种尺度:1、间隔尺度:变量是用连续量来表示,如长度、重量等2、有序尺度:用一些等级来表示。如上中下三等。3、名义尺度:既没有数量
3、表示也没有次序表示。如红黄蓝三色等我们通过距离来分类。方法有:最短距离法、最长距离法、中间距离法、重心法等。我们用最短距离法来讲述,其它方法读者自己翻阅相关的多元统计教材。最短距离法步骤如下:【1】定义样品之间的距离,计算样品两两距离,得一距离记为D(0)开始每个样品自成一类,显然这时Dij=dij。其中D表示类G之间的距离,d表示样品之间的距离。【2】找出D(0)的非对角线最小元素,设为Dpq,则将Gp和Gq合并为一新类,记为Gr。【3】给出计算新类与其他的类的距离公式:距离公式有:欧氏距离,马氏距离,兰氏距离等。我们一般用马氏距离,应为它即排除了各指标之间相关性的干扰,
4、而且还不受各指标量纲的影响。两个样本间的距离定义:其中,Xi为样品的p个指标组成的向量。协方差阵的逆矩阵协方差阵定义如下:样品到总体的距离定义:总体均值向量Dkr=min{Dkp,Dkq}将D(0)中的第p、q行及p、q列用上面公式并成一个新行新列,新行新列对应Gr,所得到得矩阵记为D(1)【4】对D(1)重复上述对D(0)的(2)(3)两步得D(2);如此下去,直到所有的元素并为一类。注意:如果某一步中非对角线最小的元素不止一个,则对应这些最小元素的类可以同时合并。为了大家便于掌握我们举例如下:例:设抽取五个样品,每个样品只测一个指标,它们是1,2,3.5,7,9,试用最
5、短距离法对这五个样品进行分类。解:我们距离选用我们所熟悉的绝对值距离。G1={X1}G2={X2}G3={X3}G4={X4}G5={X5}G1={X1}0G2={X2}10G3={X3}2.51.50G4={X4}653.50G5={X5}875.520G6={X1,x2}G3={X3}G4={X4}G5={X5}G6={X1,x2}0G3={X3}1.50G4={X4}53.50G5={X5}75.520G6={X1,x2,x3}G4={X4}G5={X5}G6={X1,x2,x3}0G4={X4}3.50G5={X5}5.520G6={X1,x2,x3}G7={x4,
6、X5}G6={X1,x2,x3}0G7={x4,X5}20最终我们分为两类比较合适,{x1,x2,x3}与{x4,x5}Step1寻找变量之间的相似性用pdist函数计算相似矩阵,有多种方法可以计算距离,进行计算之前最好先将数据用zscore函数进行标准化。X=[1,2,3.5,7,9]X2=zscore(X);%标准化数据Y2=pdist(X2);%计算距离Step2定义变量之间的连接Z2=linkage(Y2);Step3评价聚类信息C2=cophenet(Z2,Y2);//0.94698Step4创建聚类,并作出谱系图T=cluster(Z2,2);H=dendrog
7、ram(Z2);%画出聚类图matlab做聚类分析分步聚类:(1)找到数据集合中变量两两之间的相似性和非相似性,用pdist函数计算变量之间的距离;(2)用linkage函数定义变量之间的连接;(3)用cophenetic函数评价聚类信息;(4)用cluster函数创建聚类。例为了更深入了解我国人口的文化程度状况,1990年全国人口普查数据对全国30个省直辖市、自治区进行聚类分析。分析选用了三个指标:【1】大学以上文化程度的人口占全部人口的比例(DXBZ);【2】初中以上文化程度的人口占全部人口的比例(CZBZ);