《数据分析》PPT课件

《数据分析》PPT课件

ID:39536002

大小:937.10 KB

页数:124页

时间:2019-07-05

《数据分析》PPT课件_第1页
《数据分析》PPT课件_第2页
《数据分析》PPT课件_第3页
《数据分析》PPT课件_第4页
《数据分析》PPT课件_第5页
资源描述:

《《数据分析》PPT课件》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第九讲数据分析(一)余可发博士江西财经大学工商管理学院1一、数据处理与分析过程1、编辑2、编码3、数据输入4、数据分析(描述性分析、单变量分析、双变量分析、多变量分析)5、解释2二、编辑编辑就是检查和调整数据遗漏、易读性和一致性的过程。编辑人员的任务就是要检查调查问卷或者其他数据收集形式中出现的错误和遗漏。当发现问题时,编辑要及时调整数据让他们变得更加完整、一致、可读。3编辑技巧:1、退回重新填写2、按缺失数据处理3、丢弃(1)不符合要求的问卷和少。(2)样本单位数很大。(3)不符合要求的问卷与符合要求的问卷之

2、间在调查对象上的特征上没有明显的不同。(4)不符合要求的回答在该问卷中占很大的比例。(5)对关键变量的回答是缺失的。4编辑的类型:现场编辑后期编辑5编辑的任务:1、确定是否需要补充调查2、编辑的一致性3、编辑的完整性6三、编码编码就是将数字标度或其他符号分配给不同答案的过程。相关概念:域:一种类型的数据。记录:相关域的集合。文件:相关记录的集合。78编码工作一般包括以下几个方面:(1)确定变量(2)确定变量值(3)无结构问题的编码(4)编码说明书及数据输出格式说明书。9问题025:您认为打工的外地人对北京市的社

3、会秩序是否有影响?(单选)1□有很大影响2□有较大影响3□没有影响4□不好说4编码答案102)制作编码表11直接过录0-1编码变量名:一个数据文件中,一个变量只能有一个唯一名称。码位:某一变量在数据文件中占据的栏位码数:某一变量由几位数组成。该变量是数值型(Numeric)——如定距、定比,还是字串型(String),如定类、定序。前者在统计中可以做高级运算,后者则不可以。不适于被访人回答的问题的编码。一般采用7,97,997等。被访人回答不知道时的编码。一般采用8,98,998等。被访人拒绝回答某变量时的编码

4、。一般采用9,99,999等。问卷中出现漏答时的处理编码。一般采用9,99,999等。12四、数据录入外部式录入内部式录入采用DOS、WPS、CCED等软件,按ASCII码方式录入成文本文件(*.dat;*.txt)。这种录入方式的特点是,数据之间没有间隔,录完一个数码后自动后移,录入速度较快。缺点是容易错位。采用SPSS数据编辑器(SPSSDataEditor)录入。其优点是不容易错位,缺点是不能自动后移,录入速度慢,数据错误不容易修改。13五、数据分析描述分析法假设检验法方差分析法聚类分析法判别分析法回归分

5、析法141、描述性统计分析频数、频率分析数据集中趋势分析算术平均数中位数众数数据分散趋势分析全距(极差)四分位差标准差数据总体形态分布偏度(Skewness)峰度(Kurtosis)15频数、频率分析(1)例1:假设有样本数据ABCDEFGHIJ112214653322611223254334413314335413456424635352112114662634551322763662365118415336463495132522262103252341445161718算术平均数未分组数据的平均数计算分组

6、数据的平均数计算上例的计算结果19中位数的计算(1)未分组数据的中位数计算对所有数据进行排序,当数据量为奇数时,取中间数为中位数,当数据量为偶数时,取最中间两位数的平均数为中位数。上例中数据量为100,是偶数,所以应取排序后第50位数和第51位数的平均值作为中位数。第50位数是3,第51位数也是3,所以中位数为3。20中位数的计算(2)分组数据的中位数计算下式中L为中位数所在组的下限值,fm为中位数所在组的组频数,Sm-1为至中位数组时累计总频数,h为组距。21中位数的计算(3)例2:假设有分组数据如下(销售额

7、单位为万元)年销售额组中值商店数目累计频数80-90853390-10095710100-1101051323110-120115528120-130125230合计3022中位数的计算(4)依据公式例2的中位数为23众数的计算未分组数据的众数为出现次数最多的数。分组数据的众数依据下式计算获得。表达式中△1表示众数所在组与前一组的频数差,△2表示众数所在组与后一组的频数差。依据公式,例2分组数据的众数为104.29万元。24全距(极差)的计算全距指的是样本数据中最大值与最小值之间的距离,因而也叫极差。例1中最小

8、值为1,最大值为6,因而全距为6-1=5。25四分位差的计算四分位差是一种按照位置来测定数据离散趋势的计量方法,它只取决于位于样本排序后中间50%位置内数据的差异程度。即第一个四分位与第三个四分位数据之间的差异。例2的四分位差计算过程如下26标准差的计算(1)未分组数据的标准差计算27标准差的计算(2)分组数据的标准差的计算28常用图形——柱形图29直方图德国英国法国意大利西班牙荷兰瑞

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。