欢迎来到天天文库
浏览记录
ID:27613078
大小:79.00 KB
页数:5页
时间:2018-12-05
《我国31省市教育水平的聚类分析》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、我国31省市教育水平的聚类分析摘要教育实力是一国综合国力的重要组成部分。充分了解我国各地区的教育水平具有重大意义。本文建了一个含有9个一级指标,31个二级指标的评级指标体系,同时应用聚类方法和基于PCA的聚类方法对31各省市的教育水平进行聚类分析,并通过比较两种方法得到的结果,表明基于PCA的聚类方法是可行的。关键词聚类分析PCA分析教育水平R软件屮图分类号:G649.2文献标识码:A0引言教育实力是一国综合国力的重要组成部分。教育竞争力在捉升一国综合国力屮有着特殊的地位和作用,直接关系到科技竞争力和企业竞争力,从整体上影响到国家的综合竞争
2、力。认清我国教育竞争力在国际上的位置,对于国家科学地制定教育发展战略,实现从人U大国迈向人力资源强国的转变,推进教育现代化进程具有十分重要的意义。目前我国教育水〒虽然得到了长足的发展,但依旧存在问题。因此通过对31各省市的教育水平的聚类分析,能够更加清楚的认识各地区以及我国的教育水平现状,了解哪些地区之间相似,哪些差异较大,并以此为依裾,制定区域联合政策来提高区域教育水平。所以对区域教育水平的分析具有重要意义。同时通过将基于PCA的聚类方法与传统聚类分析方法进行比较,来说明基于PCA的聚类方法的可靠性。1建立各省市教育水平指标体系教育水平是
3、一个综合、系统的概念,因此构建一个层次分明、结构完整的评价指标体系是必须的。指标体系的合理与否,决定了对教育水平评价的准确程度。因此,构建一个合理的指标评价体系应该遵循以下6个基本原则:相关性原则、全面性原则、经济性原则、重要性原则、可操作性原则、相对稳定性原则。木文在6个基木原则的基础上构建含有9个一级指标和31个二级指标的省市教育水平评价指标体系。表1列出了省市教育水平评价指标体系框架。2本文研究涉及的方法:PCA和聚类分析本文在对各省市教育水平的评价时,首先采用聚类分析对31个二级指标进行分析。但因为教育水平的评价需要的指标数量较多,
4、计算量较大,所以第二种方法先采用PCA,将具有相关性的多个指标,转化为几个相互独立的综合指标(PC),再对各省市的教育水平进行聚类分析。这样做的好处就是通过PCA在没有损失太多信息条件下,减少了指标个数从而达到减小计算的复杂性。下面对木文所涉及的PCA、聚类分析进行介绍。2.1PCAPCA是利用降维的思想:设研宄问题有P个指标,这P个指标构成的P维随机向量x=(xl,x2,…,xp)’。对x作正交变换:y=U’x,其屮U’为正交阵,y的各分量是不相关的,我们从y的主分量中选择主要成分,剔除对所研宂问题影响微弱的部分,通过对Y的主分量的重点分
5、析,达到对原始变量进行分析的目的。PCA分析法的基本步骤如下:(1)确定分析指标,收集数据。(2)确定指标矩阵。设高校Ai(i=l,2,…,n)在指标Sj(j=l,2,…,p)下取值为xij得到指标矩阵:X=(x)(2.1)(3)由于各指标反映的数量角度不同,且各指标的量纲也不同,所以,要对数据进行中心标准化,即X-H1XD-1(2.2)其屮H=I?HallT,D=diag{
6、
7、HX(1)
8、
9、
10、HX(p)
11、
12、}变换后的数据阵仍记为X。(4)求XTX的特征值?%(11彡…>?%dp彡0和对应的标准特征向量ul,…,up,这由对XTX的谱分解完
13、成,即XTX二UAUT,(2.3)其屮U=(ul,…,up)(5)求PCA对总变差的累计贡献率。根据累计应献率(〉85%)来确定PCA个数。2.2聚类分析聚类分析是指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。其屮系统聚类法作为聚类分析使用最多的方法,在介绍该方法前,先介绍一个与聚类分析有关的概念:相似系数,其定义如T:定义3.1设p个变量xl,…xp,的n组数据:xtl,…xtp,t=l,2,…,n。这p个变量的n个观测记录为Rn中的p个向量x(1),…,x(p),写成矩阵形式:X=(xij)=(x(1),...x(
14、p))=(xl,...xn)’(2.4)用(2.5)来描述变量xi和xj间的相关性,并称其为xi,xj的相关系数,其中xi=xti,xj=xtj。本文将相似系数作为归类指标,则该系统聚类方法的基本步骤如下:第一步:将每个变量视为一个类,计算类之间的归类指标,然将衡量指标将最接近的两个变量归为一类,其余不变。第二步:为了将新的类在归类,需要确定新类的归类指标和归类方法。一般采用综合变量法,该方法将新归并的类巾的变量用加权平均的方法综合成一个变量,并视力新并类的代表,然后以各类屮的代表变量计算两两的相似系数,并把这种相似系数作为新类的归类指标,
15、下一步以该归类指标值判断最近的两类并归为一类。第三步:重复第二步,直到所有变量归为一类。第四步:根据系统归类图进行分类。3全国部分省市教育水平的聚类分析3.1数据來源及初步处理本
此文档下载收益归作者所有