欢迎来到天天文库
浏览记录
ID:8406036
大小:1.20 MB
页数:52页
时间:2018-03-20
《第三章 单变量描述统计分析》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第四章基本统计分析2频数分析描述统计过程互联表统计分析比率分析探索性统计过程34.1频数分析Frequencies频数分析的基本任务:编制频数分布表和绘制统计图。频数分析的扩展功能:计算分位数和计算其它基本的描述统计量(包括:集中趋势、离散程度、分布形态)注意:这里计算基本统计量的功能在Descriptive也可以实现。故不作重点讲解。4主对话框显示频数分布表5百分位数离散趋势指标集中趋势指标采用组中值计算分布形态指标计算基本统计量Statistics…四分位数每隔指定百分位数直接指定某个百分位数6带正态曲线的直方图绘制统计图Charts…饼状图条形图频数频率针对Bar/PieCharts而
2、言,纵轴表示的数值7按变量值按频数频数分布表输出格式Format…当频数表的分组数大于下面指定数值时禁止它在结果中输出,这样可以避免产生巨型表格。当选择两个以上变量作频数表时,C可以将结果输出在同一频数表过程的output;O可以将结果输出在不同的output。8按变量值升序排列这里是定类变量,计算累计百分比是无意义的91011统计学推断统计学描述统计学常用分析指标:算术平均数、调和平均数、几何平均数;众数、中位数、分位数等常用分析指标:全距、内距、平均差、方差、标准差等;4.2计算描述统计量Descriptive集中趋势分析离散程度分析刻画分布形态12偏度与峰度分布形态主要是指数据分布是否
3、对称,偏斜程度如何,分布陡缓程度如何。偏度(Skewness):反映数据分布对称性的统计量。当数据为对称分布时偏度为零;当数据为正偏态分布(右偏)时偏度大于零;当数据为负偏态分布(左偏)时偏度小于零。峰度(Kurtosis):以标准正态分布为标准描述该分布密度的形状为陡缓程度的统计量。当数据为标准正态分布时,峰度为零;数据分布为尖峰分布时峰度大于零;数据分布为平峰分布时峰度小于零。13标准化Z分数问题标准化Z分数问题:通过标准化过程可得到一系列新变量值,通常称为标准化值或Z分数。标准化过程:标准化变量的作用:可以发现变量中的极大值和极小值,以便发现分布是否均衡的问题。描述统计分析的结果指标与
4、频数分析过程基本相同,区别在于:Descriptive只计算几个主要的描述指标,不同时输出频数分布图表。14主对话框对当前变量的数据进行标准化,产生的新变量名为原变量名前加“Z”,并显示在最后一列。选择统计量1516重抽样自举法(Bootstrap,拔靴法)所谓的自举法就是利用有限的样本资料经由多次重复抽样,重新建立起足以代表母体样本分布之新样本。设一个样本具有变量y1,y2,y3,…,yn,用某种方法得到其对总体参数a的估计值.则在抽样时,每一轮都要从这n个变量中抽取一个容量也是n的随机样本,并保证每一变量在每轮每次抽样中的被抽取概率都是1/n(相当于经典方法的复置抽样)。17实现方法:此
5、过程一般可用随机数表或由计算机输出n个0~1之间的随机数实现。即:先将样本变量编码为1,2,⋯,n;然后取分组距离1/n将区间[0,1]分成n个互斥的分隔:0~1/n,1/n~2/n,2/n~3/n,...,(n-1)/n;出现的随机数,凡在0≤R<1/n之间的取编码“1”变量,凡在1/n≤R<2/n之间的取编码“2”变量,⋯,凡在(n-1)/n≤R<1之间的取编码“n”变量,这就称为自举抽样,18由这n个“新”变量组成的样本则称为自举样(bootstrapsample)。当对原始样本变量重复进行m轮自举抽样,就得到m个容量均为n的自举样本。再对每一样本都按照在原始样本中所用的方法求出参数a
6、的估计值,会得到关于参数的m个估计值,这些估计值的方差称为自举方差。重抽样自举法的意义:自举方差是对估计量抽样方差较好近似。19204.3交叉分组下的频数分析Crosstabs统计中常常会探讨变量间的关系,如两变量间是否有关联、进一步研究两变量间是否是因果关联。如性别和大学专业的选择,学习兴趣和学习效果等等。列联表分析的目的:分析多个变量不同取值下的分布,掌握多变量的联合分布特征,进而分析变量之间的相互影响和关系。两大基本任务:一,产生两维或多维交叉列联表;二,对两两变量间是否存在一定的相关性进行卡方检验和其它相关性检验。分析对象:两个或多个定类或定序的变量。21交叉列联表行列变量间关系的分
7、析所有观测频数都出现在主对角线上,则两变量存在正相关。所有观测频数都出现在负对角线上,则两变量存在负相关。工资收入低中高年龄段青40000中05000老00600工资收入低中高年龄段青00500中06000老40000在绝大多数情况下,观测频数的分布是分散在列联表的各个单元格中的,此时就不容易直接发现行列变量之间的关系和他们关系的强弱关系。为此,需要借助非参数检验方法和一些度量变量间相关程度的统计量等手段进行
此文档下载收益归作者所有