样本数据特征的初步分析

样本数据特征的初步分析

ID:39496764

大小:1003.50 KB

页数:72页

时间:2019-07-04

样本数据特征的初步分析_第1页
样本数据特征的初步分析_第2页
样本数据特征的初步分析_第3页
样本数据特征的初步分析_第4页
样本数据特征的初步分析_第5页
资源描述:

《样本数据特征的初步分析》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第三章样本数据特征的初步分析●数据的预处理●频次与频率●观察数据的图形方法●数据特征的度量3.1数据的预处理数据审核检查数据中的错误数据筛选找出符合条件的数据数据排序升序和降序寻找数据的基本特征数据审核原始数据应调查的单位或个体是否有遗漏所有的调查项目或变量是否填写齐全数据是否真实反映实际情况,内容是否符合实际数据是否有错误,计算是否正确等间接数据弄清楚数据的来源、数据的口径以及有关的背景材料确定数据是否符合自己分析研究的需要尽可能使用最新的数据确认是否有必要做进一步的加工整理当数据中的错误不能予以纠正,或者有些数据

2、不符合调查的要求而又无法弥补时,需要对数据进行筛选数据筛选的内容将某些不符合要求的数据或有明显错误的数据予以剔除将符合某种特定条件的数据筛选出来,而不符合特定条件的数据予以剔除数据筛选数据排序按一定顺序将数据排列,以发现一些明显的特征或趋势,找到解决问题的线索排序有助于对数据检查纠错,以及为重新归类或分组等提供依据在某些场合,排序本身就是分析的目的之一排序可借助于计算机完成3.2频次与频率频次(Frequence)在同一个数据集合中,同一个数据(样本值)出现的次数频率(Percentage)某样本值的频率=该样本值出

3、现的频次/n从某城市抽出来的30个商店中,某商品的价格数据某单位16人受教育程度表3.1某单位职工受教育的结构受教育程度小学初中高中大学硕士合计各个受教育程度出现的人数1229216各受教育程度出现的频率(%)6.2512.512.556.2512.5100家庭家具的基色调的抽样调查结果表3.2家庭家具的基色调的抽样调查结果家具的基色调黑色浅绿色暗红白色淡黄褐合计各基色调出现的次数16851030各基色调出现的频率(%)3.332026.6716.6733.33100统计表的设计4个主要部分:表头、行标题、列标题和数

4、字资料表中的上下两条横线一般用粗线,其他线用细线通常情况下,统计表的左右两边不封口表中的数据一般是右对齐,有小数点时应以小数点对齐,而且小数点的位数应统一对于没有数字的表格单元,一般用“—”表示必要时可在表的下方加上注释3.3观察数据的图形方法条形图饼图面积图线图直方图茎叶图箱形图、散点图、正态概率分布图条形图(BarChart)用直条的长短来表示数据的频次或频率简单条形图纵轴为频率纵轴为累计百分比例分组条形图例分段条形图例饼图用一个圆来表现百分比构成,可根据圆中各个扇形面积的大小,来判断某一部分在全部中所占比例的多

5、少面积图用面积来表现连续型数据的频数分布资料,面积越大,频数越多,反之亦然线图直方图用于展示分组数据分布的一种图形用矩形的宽度和高度来表示频数分布本质上是用矩形的面积来表示频数分布在直角坐标系中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图直方图下的总面积等于1组距分组将变量值的一个区间作为一组适合于连续变量适合于变量值较多的情况需要遵循“不重不漏”的原则可采用等距分组,也可采用不等距分组分组方法等距分组异距分组单变量值分组组距分组1.下限(lowlimit):一个组的最小值2.

6、上限(upperlimit):一个组的最大值3.组距(classwidth):上限与下限之差,区间长度4.组中值(classmidpoint):下限与上限之间的中点值某班级男生的身高数据例确定区间长度确定组数制作频数分布表确定最左端分组区间位置的准则:组中值为最小值上限—下限区间长度组数=[]+1直方图与条形图的区别条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义直方图的各矩

7、形通常是连续排列,条形图则是分开排列条形图主要用于展示分类数据,直方图则主要用于展示数值型数据茎叶图(Stem&Leaf)定义按照某种规则,把所有的样本值分成“茎节”和“叶”两个部分,表达为“茎节.叶”的形式如规定“茎节”的宽度为100,则样本数据123的“茎节.叶”表达方式就是1.23“茎节”末位上的1所代表的实际值,就是“茎节”的宽度原则确定宽度的原则:样本数据集合中的“茎节”必须是有变化的茎叶图的作法某班级男生的身高(cm)频数茎叶416.03581117.01255667788618.012356119.0由

8、“茎”和“叶”两部分构成,其图形是由数字组成的以该组数据的高位数值作树茎,低位数字作树叶茎叶图类似于横置的直方图,但又有区别直方图可观察一组数据的分布状况,但没有给出具体的数值茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息直方图适用于大批量数据,茎叶图适用于小批量数据例3.4数据特征的度量集中趋势(CentralTe

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。