第二章 单变量统计描述分析

第二章 单变量统计描述分析

ID:15570965

大小:101.00 KB

页数:6页

时间:2018-08-04

第二章  单变量统计描述分析_第1页
第二章  单变量统计描述分析_第2页
第二章  单变量统计描述分析_第3页
第二章  单变量统计描述分析_第4页
第二章  单变量统计描述分析_第5页
资源描述:

《第二章 单变量统计描述分析》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第二章单变量统计描述分析第一节单变量统计描述基本技术一、变量的计量尺度/层次1、定类变量——最低层次的变量类型。只有类别属性之分,无大小程度之分。根据变量值,只能知道研究对象的异同。从数学运算特性来看,定类变量只有等于或不等于的性质。2、定序变量——层次高于定类变量。取值除类别属性外,还有等级、次序之分。数学运算特性除等于或不等于外,还有大于或小于。3、定距变量——层次高于定序变量。取值除类别属性、次序之外,取值之间的距离可以用标准化的举例度量。数学运算特性除等于不等于,大于小于之外,还可以加减。如收入,以1元为标准化距离,则2000元比1500元多了500元

2、。4、定比变量——最高层次变量。除了上述三种属性外,可以进行乘除运算。定类定序定距定比=,≠√√√√>,<√√√+,-√√×,÷√1、社会学研究中,能够满足定距而不能同时满足定比要求的变量不多。如智商,因为智商0分只有相对的意义,0分不等于没有智商,且0值不固定。当前社会统计方法很少要求达到定比层测,所以只介绍前三种层次变量。2、在社会学研究当中,有些变量的层次是不统一可变的,可用定序层次也可用定距层次,根据研究需要。高层次变量可以降低层次来使用。一般来说,测量层次越高越好,数学特性就越多,统计分析就越方便,能了解资料的程度就越深入。二、基本技术1、次数分布(

3、定类)——针对定类变量最基本的统计分析方法。面对大量的数据资料,首先要组织整理,第一步就是要采用次数分布来简化资料,看某变量的每一个值出现的次数是多少。定类变量的取值要求:变量取值必须完备,使得每个各观察值都有所归类;必须互斥,一个观察值只能归入一类,对于分组数据遵循上限不包括在内原则。次数分布可简化资料,但不能比较样本,因为样本量不同。2、比、比例和比率(通常保留一位或两位小数)比:某两类的次数相除,如性别比=男性/女性比例:某类次数除以总数,老年人口比例=老年人口数/总人口数×100%比率:某一确定变量相对应的某些事件发生的频率。分子和分母不存在隶属关系,

4、有时是不同的变量,如人均GDP,患病率。3、累加次数和累加百分比(定序和定距)累加次数就是把次数累加起来,分为向上累加和向下累加。作用:知道某值以下或以上的次数总和。累加百分比同理。4、定距层次的特殊处理定距变量的取值很多,难以计算每个值的次数和百分比,需分组测量。组限:上限和下限。组距:上限和下限之差。组中值:上限和下限的平均数。收入次数1000-1999元502000-3999元604000-7999元308000元以上10如何分组?要考虑几个问题:1、组数太少会掩盖变量变动时频次的变化。组数太多会是每组内频次过少,增加偶然因素,使各组高度参差不齐,看不出

5、规律。2、等距分组和不等距分组。通常用等距分组,但有时不等距分组能更好反映现象本质,如收入1000元和2000元的职工生活水平差距较大,而5000和6000元之间差距较小。5、统计图饼图:多用于定类变量,因为表示变量取值在总体中占的比例,而不管取值的排序。条形图:用长条的高度表示变量类别的次数或百分比,宽度无意义,一般画成等宽长条,用于定类变量和定序变量。直方图:仅用于定距变量。以长条面积表示频次或相对频次,条形高度表示频次密度(单位组距包含的频次)或相对频次密度,宽度是组距。为何用频次密度而非频次作为条形高度?因为非等距分组情况下,频次作为条形高度会产生错误

6、,每一组的相对比例不一致。例如:初婚年龄组(岁)频次(人)26-273040-5035根据频次来比较,得出错误结论:40-50岁结婚的人比26-27岁结婚的人多。频次密度=频次/组距;相对频次密度=相对频次/组距30人/27-26=30(人/岁)35人/50-40=3.5(人/岁)可见,26-27岁结婚的频次密度远大于40-50岁结婚的频次密度。折线图:如果用直线联结直方图中条形顶端的中点,则得折线图。组距减小,线条越平滑,最终成为曲线。社会学研究常见曲线如J形曲线、U形曲线、峰状曲线(单峰、双峰、多峰)、对称和不对称曲线(正态和偏态、右偏/正向偏和左偏/负向

7、偏)。以正态、单峰图形最为常见。第二节集中趋势测量法用一个典型的变量值来代表全体变量,这个值就称为集中值或集中趋势。用这个值估计或预测变量肯定有误差,但是这些数值是最具代表性的,所以用这个集中值来估计或预测变量所产生的误差最小。一、众数(定类变量)用频数最多的变量值来表示变量的集中值。适合任何层次的变量,只要知道频次分布,就能找到众值,定距变量可以用频次密度最高的组的组中值来表示众值。一、中位数(定序变量)Md位于最中间的变量值,将观察总数一分为二,其中一般比它小,一半比它大。1、根据原始资料求中位数N为奇数时,中位数位于(N+1/)2的地方。N为偶数时,取居

8、中位置左右两数的平均值。2、根据分组资

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。