资源描述:
《多元统计分析讲义89773》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、文件编号:10055_26_e_5实验课程讲义精选多元统计分析讲义杜勇宏1多元统计分析§1基本概念与基础知识首先介绍几个非常有用的统计学概念,这些概念在地理数量分析中广泛应用,它们是许多计量方法的基础。然后说明几个常见的数据标准化方法,最后比较一下相关系数和相似系数,并证明其几何意义。有些概念在上一章已经讲过,现在不妨从另一个角度进行理解。1基本概念⑴均值(mean,average)均值作为一组数据的代表,反映的是这组数据的平均水平。算术平均数的计算公式为n1x=∑xini=1性质1n∑(xi−x)=0i=
2、1性质2nn222∑(xi−c)=∑(xi−x)+n(x−c)i=1i=1nn222注意到n(x−c)≥0,必然有∑(xi−c)≥∑(xi−x),这意味着:如果用一个数去代i=1i=1n1表一组数据的平均水平,只有x=∑xi的代表性最好。ni=1性质3如果y=x−a,a为常数,则有iiy=x−ann22∑(yi−y)=∑(xi−x)i=1i=1性质4如果y=bx,b为常数,则有iiy=xbnn222∑(yi−y)=b∑(xi−x)i=1i=1性质5若y=bx−a,则有iiy=xb−ann222∑(yi−y)
3、=b∑(xi−x)i=1i=1Excel命令:average。⑵方差(variance,var)2方差用以衡量数据的集中或分散程度。公式为n212S=∑(xi−x)ni=1可以证明n2122S=∑xi−(x)ni=1我们称n12S=∑(xi−x)ni=1为标准差(standarddeviation,stdev),它是观测值与均值之间的平均距离。总体方差与抽样方差,前面讲的为总体方差,至于抽样方差(或称样本方差),计算公式为n212S=∑(xi−x)n−1i=1相应地,抽样标准差为n12x的总变差SxxS=∑
4、(xi−x)=n−1i=1总自由度对于y,当然有n12y的总变差Syy或SStS=∑(yi−y)=n−1i=1总自由度Excel命令:总体方差varp,样本方差var,总体标准差stdevp,样本标准差stdev。这里文字及逻辑值均忽略不计。⑶协方差(covariance,cov或covar)用以衡量的协变趋势即共同离散程度,计算公式为n1cov=∑(xi−x()yi−y)ni=1Excel命令:covar。⑷变异系数用以衡量数据的波动性。计算公式为Sv=xExcel命令:stdev/abs(average
5、(x))。⑸标准误差(standarderror,ste)用以衡量实测数据对预测数据的偏离程度,或者说实测数据相对于回归线的离散程度。计算公式n12y的剩余变差SSeSe=∑(yi−yˆi)=n−k−1i=1剩余自由度检验系数3Seδ=yExcel命令:标准误差steyx,检验系数steyx/abs(average(y))。⑹极差用以反映数据之间的最大差距,计算公式为R=max(x)−min(x)iiExcel命令:max(x)-min(x)。⑺自由度(degreeoffreedom,df)为了得出所有观测
6、值所需要的最小观测值的数目。回归自由度:变量数目,即k剩余自由度:样本数目减去变量数目再减1,即n-k-1总自由度:样本数目减1,即n-1关系:总自由度=回归自由度+剩余自由度2数据标准化假定有n个样本,m个变量,则可以建立一个原始数据矩阵(matrix)X如下⎡x11x12Lx1m⎤⎢⎥xxLxX=⎢21222m⎥=[x,x,L,x]12m⎢LLLL⎥⎢⎥xxLx⎣n1n2nm⎦n×m矩阵的特例称为向量(vector),只有一行的矩阵(记为p=1)称为行向量(rowvector),只有一列的矩阵(记为q=
7、1)称为列向量(columnvector)。对矩阵X的按列进行标准化,公式为x−x*ijjx=,i=,2,1L,n;j=,2,1L,mijσj式中nn11xj=∑xij或xj=∑xijni=1n−1i=1为第j个变量的平均值,而nn1212σj=∑(xij−xj)或σj=∑(xij−xj)ni=1n−1i=1为相应变量的标准差。Excel命令及语法:standardize(x,x,σ)。注意:必须同时按下“Ctrl+Shift+Enter”键。标准化数据的性质:n*1*性质1:均值为0,即有x=∑xi=0;
8、ni=1n*1**2性质2:方差为1,即有Var(x)=∑(xi−x)=1;ni=14性质3:数据标准化以后变量的相关系数等于原始数据的相关系数,即有****R(x,y)=R(x,y)=cos(∠xOy);****性质4:相关系数等于协方差,即有R(x,y)=cov(x,y)。标准化的优点:⑴消除量纲差异的影响;⑵相关系数等于协方差及(变量在样本空间中的)夹角余弦,便于几何分析和进一步的因子分析。此外,数据标准化