资源描述:
《学生成绩的主成分分析和聚类分析》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、武汉理工大学《多元统计分析》课程设计说明书学生成绩的主成分分析和聚类分析摘要运用主成分分析方法和聚类分析方法,对高校学生的综合成绩进行评价。避免传统方法在综合评价中对指标的主观选择及对权重的主观判断,使权重的分配更合理,尽可能地减少重叠信息的不良影响,克服变量之间的多重相关性,简化系统分析。关键词:主成分分析;综合评价;聚类分析PrincipalComponentandClusterAnalysisinStudents’GradesAbstractUsingprincipalcomponenta
2、nalysisandclusteranalysismethodtoevaluateCollegestudents’comprehensiveperformance.AvoidthetraditionalmethodofComprehensiveEvaluationthatwillgiverisetochoicesubjectiveindicatorsandsubjectivelyjudgerightweight.Sothereisamorereasonabledistributionofrigh
3、tweight.Possibletoreduceduplicationofinformationthatcausestheadverseeffects.Overcomethemultiplevariablesrelatedtosimplifyanalysis.Keywords:principalcomponentanalysis,comprehensiveevaluation,clusteranalysis1引言学生的学习成绩是学校、工作单位选拔人才的重要依据,更是学生衡量自己知识掌握程度的重要
4、标准。因此,对成绩进行科学评价的问题显得尤为重要。假如每人只有一科分数,排出名次即可。但实际上,每个学生都有几科甚至几十科分数。这就需要对这些数据进行加工整理分析并提取出有关这N个学生的有用信息,即多指标统计分析问题。显然,指标越多越复杂,因此,自然希望通过对原有指标数据的科学的加工、整理,将问题的指标数尽可能地减少、压缩。所以,我们希望能用较少的几个新的综合指标,来代替原由的武汉理工大学《多元统计分析》课程设计说明书较多的指标,使问题大大简化,但同时要求新指标:1、尽可能保留原有指标含有的信息
5、量;2、各指标之间不相关,即各自含有的信息不重叠。这样一种将原来较多的指标简化为少数几个新的综合指标的多元统计方法叫主成分分析。新的综合指标称为原指标的主成分。并且按其含有的信息量的大小依次称为第一主成分,第二主成分……在提取出样本的主成分之后,我们自然希望能对学生进行更加深入的评级。目前最常用的加工方法是计算各人的加权平均分,按平均分的高低来评价学生。但是这样虽然可以将问题简化,但往往也失去许多信息。目前,综合评价大学生的方法比较单一,多数大学或院系都是用学生的总成绩或平均成绩作为评价的定量依
6、据。应该说这种评价方法比较简单,并能提供一定的综合信息,但它存在着两大缺点:一是这种评价方法掩盖了学生的个性,即不能反映学生不同方面的特点。比如,我们无法从这种评价结论中得知一个学生基础知识怎样,动手能力强弱,外语水平高低等等;二是这种评价方法不能对学生进行分类,即不能提供学生群体的分类标准。上述两方面特征即学生个性特征和群体分类特征是学生管理工作中非常有用的重要信息,因此,研究反映这两个特征的方法是非常必要的。本论文的主要目的为:利用多元统计中的主成分法和聚类分析,提取学生成绩的主成分并将学生
7、进行分类,让我们用几个主成分就能解释学生于科目之间的关系,让我们知道哪些学生善于理性思维,哪些学生的动手能力强,这样也可以从中得到两类学生的比例,作为系里评价学生的一个基础,也可以让学生很清楚自己在那个方面的优势,对其以后的发展作一个前期的指导。2、方法简述2.1、主成分方法简介[1]设有n组样本,每组样品有p个变量。用主成分分析法,利用全部p个变量来重新构造q个新的综合变量,并使得这些较少的变量既能更多得反映原来p个变量的统计特性,又使'它们之间相互独立。假定x=(xx,,...,x)是一组随
8、机变量,并且EX=µ,Varx()=V.考虑12pxx,,...,x的一个线形组合Z=ax+ax+...+ax=ax'这里a'=(,aa,...,a).对于综合12p1122pp12p变量Z,要选择这一组系数a'=(,aa,...,a).使得Z的方差最大值(为加以限制,令aa'=1)。12pava'用拉格朗日极值理论,可以证明,Varx()的最大值等价于求max的值,就等于矩阵aa'武汉理工大学《多元统计分析》课程设计说明书+V的最大特征根λ,a就是λ对应的特征向量。若记矩阵Σ的p个特征值L11