欢迎来到天天文库
浏览记录
ID:48248248
大小:1.20 MB
页数:86页
时间:2020-01-18
《第3章 数据的整理与显示《统计整理》.ppt》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第3章统计整理作者:中国人民大学统计学院贾俊平PowerPoint统计学统计整理的一般问题一.数据审核二.数据筛选三.数据排序数据的预处理数据的审核检查数据中的错误数据的筛选找出符合条件的数据数据排序升序和降序寻找数据的基本特征数据审核数据审核—原始数据(rawdata)审核的内容完整性审核检查应调查的单位或个体是否有遗漏所有的调查项目或指标是否填写齐全准确性审核检查数据是否真实反映客观实际情况,内容是否符合实际检查数据是否有错误,计算是否正确等数据的审核—原始数据(rawdata)审核数据准确性的
2、方法逻辑检查从定性角度,审核数据是否符合逻辑,内容是否合理,各项目或数字之间有无相互矛盾的现象主要用于对分类和顺序据的审核计算检查检查调查表中的各项数据在计算结果和计算方法上有无错误主要用于对数值型数据的审核数据的审核—二手数据(secondhanddata)适用性审核弄清楚数据的来源、数据的口径以及有关的背景材料确定数据是否符合自己分析研究的需要时效性审核尽可能使用最新的数据确认是否必要做进一步的加工整理数据筛选与排序数据筛选(datafilter)当数据中的错误不能予以纠正,或者有些数据不符合调查的
3、要求而又无法弥补时,需要对数据进行筛选数据筛选的内容包括将某些不符合要求的数据或有明显错误的数据予以剔除将符合某种特定条件的数据筛选出来,而不符合特定条件的数据予以剔除用Excel进行数据筛选8名学生的考试成绩数据数据筛选(datafilter)数据排序(datarank)按一定顺序将数据排列,以发现一些明显的特征或趋势,找到解决问题的线索排序有助于对数据检查纠错,以及为重新归类或分组等提供依据在某些场合,排序本身就是分析的目的之一排序可借助于计算机完成数据排序(方法)分类数据的排序字母型数据,排序有
4、升序降序之分,但习惯上用升序汉字型数据,可按汉字的首位拼音字母排列,也可按笔画排序,其中也有笔画多少的升序降序之分数值型数据的排序递增排序:设一组数据为x1,x2,…,xn,递增排序后可表示为:x(1)x(2)>…>x(n)统计分组及统计表一.分组标志的选择与分组形式二.频数分布三.统计表分组标志的选择和分组形式(一)按分组标志的性质不同,分为按品质标志分组和按数量标志分组按性别分组人数所占(%)男性女性6004006040合计1000100按品质标
5、志分组示例按数量标志分组示例周工资额(元)人数(个)各组人数占总人数百分比%(1)(2)(3)80-9031090-100723100-1101343110-120517120-13027合计30100原始数据:24,26,24,21,27,27,30,41,32,38组别Class频数Frequency15且<25325且<35535且<452分组表-按数量标志分组示例之二(二)按分组标志的多少,有简单分组和复合分组1.简单分组表:表的主词未经任何分组,仅列出总体各单位的名称或按时间顺序简单排
6、列的统计表。城市名称人口数其中:市辖县的人口数北京市天津市上海市10819407878740213341896345698229303345127460第四次人口普查我国三个直辖市的人口简单表举例:年份黄金储备(万盎司)国家外汇(亿美元)19931994199519961267126712671267211.99516.2735.971050.29黄金和外汇储备2.复合分组表:指表的主词按两个以上的标志进行分组的统计表。项目投资额(亿元)比重(%)一.全民所有制单位基本建设更新改造及其它措施二.集体所有
7、制单位城镇农村三.个人建房投资城镇农村952594358156451112611724469.543.426.111.43.38.119.11.317.8合计1369100频数分布分组方法分组方法等距分组异距分组单变量值分组组距分组单变量值分组(要点)1.将一个变量值作为一组2.适合于离散变量3.适合于变量值较少的情况举例:单项变量数列按日产量分组工人人数比重(件)(人)(%)25106262010273017285028294022303017合计180100组距分组(要点)将变量值的一个区间
8、作为一组适合于连续变量适合于变量值较多的情况需要遵循“不重不漏”的原则可采用等距分组,也可采用不等距分组~~~~~组距分组(步骤)确定组数:组数的确定应以能够显示数据的分布特征和规律为目的。在实际分组时,可以按Sturges提出的经验公式来确定组数K确定组距:组距(ClassWidth)是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即组距=(最大值-最小值)÷组数统计出各组的频数并整理成频数
此文档下载收益归作者所有