数理统计课程设计

数理统计课程设计

ID:9890030

大小:57.50 KB

页数:10页

时间:2018-05-14

数理统计课程设计_第1页
数理统计课程设计_第2页
数理统计课程设计_第3页
数理统计课程设计_第4页
数理统计课程设计_第5页
资源描述:

《数理统计课程设计》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、一:题目8.高考单科成绩与公共基础课、专业基础课、专业选修成绩的相关性分析;公共基础课、专业基础课、专业选修课的分类在辅导员处查找。二:题目分析根据题意,我们要分析高科单科成绩与公共基础课、专业基础课、专业选修成绩的相关性,就需找一个统计量,它能反映出它们之间的相关程度。假设高考单科成绩:语文,数学,英语,综合以及公共基础课,专业基础课和专业选修课均是连续型变量,并且它们各自的分布是某个分布族中的一个。而对于连续性的变量,最常用的是描述变量间取值线性相关的样本Pearson相关系数。设变量的样本量为的观

2、测值为,则样本Pearson相关系数(coefficientofcorrelation)为且r介于-1与1之间,r的绝对值越大,表示x,y取值间的线性联系越强。三:变量说明x1:高考语文成绩x2:高考数学成绩x3:高考英语成绩x4:高考综合成绩y1:所有公共基础课总成绩y2:所有专业基础课总成绩y3:所有专业选修课总成绩Ex:观测值x(x1,x2,x3,x4)的均值Ey:观测值y(y1,y2,y3)的均值cov:观测值x与y之间的协方差r为相关系数矩阵且r(j,k)为xj与yk之间的相关系数(j=1,2

3、,3,4;k=1,2,3)四:缺失值处理对数据缺失特征的描述,最重要的是要考察数据的缺失值机制。数据的缺失值机制包括三种:完全随机缺失(MissingCompletelyAtRandom,MCAR)、随机缺失(MissingAtRandom,MAR)与非随机缺失(NotMissingAtRandom,NMAR)。如果数据缺失的概率既不依赖于观测值也不依赖于缺失值,则数据缺失状态属于MCAR;如果数据缺失的概率仅仅依赖于观测值,那么数据缺失状态属于MAR;而如果数据缺失的概率既依赖于观测值又依赖于缺失值,

4、那么数据缺失状态属于NMAR,这种缺失状态又被称为不可忽视缺失。对于数据缺失状态是否属于MCAR,Little提出了一种检验方法,即Little检验。缺失值的处理有以下几种方法:一)个案剔除法(ListwiseDeletion)  最常见、最简单的处理缺失数据的方法是用个案剔除法(listwisedeletion),也是很多统计软件(如SPSS和SAS)默认的缺失值处理方法。在这种方法中如果任何一个变量含有缺失数据的话,就把相对应的个案从分析中剔除。如果缺失值所占比例比较小的话,这一方法十分有效。至于具

5、体多大的缺失比例算是“小”比例,专家们意见也存在较大的差距。有学者认为应在5%以下,也有学者认为20%以下即可。然而,这种方法却有很大的局限性。它是以减少样本量来换取信息的完备,会造成资源的大量浪费,丢弃了大量隐藏在这些对象中的信息。在样本量较小的情况下,删除少量对象就足以严重影响到数据的客观性和结果的正确性。因此,当缺失数据所占比例较大,特别是当缺数据非随机分布时,这种方法可能导致数据发生偏离,从而得出错误的结论。二)均值替换法(MeanImputation)  在变量十分重要而所缺失的数据量又较为庞

6、大的时候,个案剔除法就遇到了困难,因为许多有用的数据也同时被剔除。围绕着这一问题,研究者尝试了各种各样的办法。其中的一个方法是均值替换法(meanimputation)。我们将变量的属性分为数值型和非数值型来分别进行处理。如果缺失值是数值型的,就根据该变量在其他所有对象的取值的平均值来填充该缺失的变量值;如果缺失值是非数值型的,就根据统计学中的众数原理,用该变量在其他所有对象的取值次数最多的值来补齐该缺失的变量值。但这种方法会产生有偏估计,所以并不被推崇。均值替换法也是一种简便、快速的缺失数据处理方法。

7、使用均值替换法插补缺失数据,对该变量的均值估计不会产生影响。但这种方法是建立在完全随机缺失(MCAR)的假设之上的,而且会造成变量的方差和标准差变小。三)热卡填充法(Hotdecking)  对于一个包含缺失值的变量,热卡填充法在数据库中找到一个与它最相似的对象,然后用这个相似对象的值来进行填充。不同的问题可能会选用不同的标准来对相似进行判定。最常见的是使用相关系数矩阵来确定哪个变量(如变量Y)与缺失值所在变量(如变量X)最相关。然后把所有个案按Y的取值大小进行排序。那么变量X的缺失值就可以用排在缺失值

8、前的那个个案的数据来代替了。与均值替换法相比,利用热卡填充法插补数据后,其变量的标准差与插补前比较接近。但在回归方程中,使用热卡填充法容易使得回归方程的误差增大,参数估计变得不稳定,而且这种方法使用不便,比较耗时。四)回归替换法(RegressionImputation)   回归替换法首先需要选择若干个预测缺失值的自变量,然后建立回归方程估计缺失值,即用缺失数据的条件期望值对缺失值进行替换。与前述几种插补方法比较,该方法利用了数据库中尽量

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。