欢迎来到天天文库
浏览记录
ID:43378631
大小:613.45 KB
页数:16页
时间:2019-10-01
《医学统计学(扬州大学)第二章资料的描述统计分析》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、第二章资料的描述统计分析通过试验或调查收集的原始数据资料,一般具有“大量”和“杂乱无章”的特点,不能直接考察其潜在的特征。所以首先要进行描述统计分析,使人们对资料特征有大致的了解。数据资料的描述统计分析包括资料整理和特征数计算两个内容。资料只有经过整理和计算特征数,才能从中提取有用的信息,系统地、准确地反映现象的特征和规律性。资料整理是对原始资料审核、分组、汇总、描述和归纳,使之条理化和便于统计分析和推断的形式的工作过程。统计整理的主要内容:(1)数据资料的审核与订正,主要是检查数据中是否有在记录和登记过程屮的人为错误、是否有异常数据存在,如小数点错位、
2、数字末尾少写或多写一个0等,有无由于测量仪器的系统偏差,保证数据的可靠性。(2)统计数据的分组与汇总,以显示研究对象内部结构、类型和特征。(3)由原始数据或汇总资料计算各种数据资料的数字特征。(4)用统计表或统计图展示资料,以便通过简单形式直观反映资料的基本特征和变化趋势。2.1异常数据的判断和处理界常数据是指观察数据中存在的过大或过小的值。界常数据可能只是数据中内在随机变界性的一种极端表现,也可能是因为试验过程中出现的操作错误或条件改变所导致。对于前一种异常数据,必须了以保留并与其他数据一起参与统计分析过程。对于后一种数据,必须舍弃或修正。因此一个过大
3、或过小的值是否为真的异常值,需要首先进行判断,判断的方法是进行测验。如果数据服从正态分布,检验的方法有格拉布斯(Grubbs)、奈尔、迭克生(Dixon)、平均绝对离差、标准误差检验等方法。这里主要介绍格拉布斯检验方法。格拉布斯检验格拉布斯检验用于总体方差未知的异常值检验,检验的统计量为TT=^-x^或卩=%)“SS式中丘是样本数据的平均数,S是样本标准差,x⑴是样本内最小次序观察可疑极端值,兀⑷是样本内最大次序观察可疑极端值。根据样本数据的个数以及显著性概率值,查格拉布斯去异常值数据的临界值表,得临界值,当最小值或最大值对应的统计量T大于临界值时,判断
4、该值异常,剔除该值。剔除异常值后,需要对剩下的数据重新进行异常值检验,即重复进行以上过程,直到没有异常值为止。表2.1格拉布斯去异常值数据的临界值(7b)表样本容量-显著水平样本容量-显著水平0.050.010.050.0131.151.15222.763.0641.481.50232.783.0951.711.76242.803.1161.891.97252.823.1372.022.14262.843.1582.132.27272.863.1792.212.39282.883.18102.292.48292.893.19112.342.56302.9
5、13.20122.412.64312.923.25132.462.70322.943.27142.512.76332.953.29152.552.81342.973.30162.592.85352.983.32172.622.89362.993.33182.652.93373.003.34192.682.97383.013.36202.713.00393.033.37212.733.03403.043.382.2资料的分类统计资料是指反应事物、现象或过程的数据资料,包括原始资料和次级资料。与一般资料相比,统计资料有如下特点:(1)数字性:一般资料有数字形
6、式,也有文字形式,但统计资料都应是数字形式(或可转换为数字形式);(2)大量性:统计资料是人量相彖或对同类相彖观察所取得的数据资料,而不是个别相彖的少量或个别数据;(3)具体性:统计资料是已经实现事实的记载,而不是拟议屮的数据资料,故各种质量标准或技术规范等资料不是统计资料。资料的分类是统计归纳的基础,根据资料的收集方法及数据的取值特性,通常对将资料分为以下类型。2.2.1连续性资料连续性资料(continuousdata)是指在一定范围内可取任何实数值的数据资料,例如动物个体的体重、奶牛的产奶量、羊的产毛量等指标(变量)进行测定所得到的数据,它们通常是
7、用度量衡等计量工具测量后得到的,因而也称为计量资料。连续性资料的连续性受实际测定规模和测量工具精度的限制,实际得到的资料并不是完全连续的,也就是说这种连续性只是理论上的。2.2.2离散性资料离散性资料(discrete血ta)是在一定范围内只取有限种可能值的数据资料。又可进一步分为(1)计数资料(countingdata):是用计数的方式得到的数据资料,它们必须用整数来表示,如对猪的产仔数、鸡的产蛋数等指标(变量)的记录数据。(2)分类资料(categoricaldata):可自然地或人为地分为两个或多个不同类别的资料,主要的分类形式有:公称尺度(nom
8、inalscale)不同类别之间没有等级之分,例如对性别(公、母),基因型(AA
此文档下载收益归作者所有