数据分析 演示文稿.ppt

数据分析 演示文稿.ppt

ID:49500242

大小:353.50 KB

页数:22页

时间:2020-02-06

数据分析 演示文稿.ppt_第1页
数据分析 演示文稿.ppt_第2页
数据分析 演示文稿.ppt_第3页
数据分析 演示文稿.ppt_第4页
数据分析 演示文稿.ppt_第5页
资源描述:

《数据分析 演示文稿.ppt》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、数据分析数据的描述性分析即是从数据出发概括数据特征,主要包括数据的位置特性、分散性、关联性等数字特征和反映数据整体结构的分布特征,它是数据分析的第一步,也是对数据进行进一步分析的基础。§1单样本数据1、一组单样本数据,样本数据个数称为样本容量,1)样本平均数2)样本方差3)样本标准差4)偏度5)峰度2、五数概括1)中位数2)最小数3)最大数4)极差5)分位数6)上四分位数7)下四分位数8)极差9)上下截断点无数概括:最小数、下四分位数、中位数、上四分位数、最大数和在一起称为无数概括。例:已知数据:9.898.006.406.175.397.279.0810.4011.208.338.7

2、56.4511.9010.309.589.247.756.208.95计算:平均数,方差,中位数,四分位数;并判断是否有异常值。解:3、直方图:直方图可以直观的观察数据的分布情况。所谓直方图就是将数据按它们的取值范围划分为若干子区间,以每一个子区间为底,在它的上方作一个矩形,矩形的面积与位于该子区间内的数据个数成比例。这些矩形的全体构成了数据直方图。方法:将数据范围分成若干自取件,一般是等间距的。考虑落入每个区间的频率。绘制直方图的关键之处在于子区间的划分,我们将分别讨论两种情况:样本数据本身包含了子区间的划分或至少提供了划分的信息,另一种是样本数据只提供单纯的n个数字。1、样本数据组

3、提供了子区间的划分例1某市居民的月收入情况2000元以下2000元~3000元3000元~4000元4000元~5000元5000元~6000元6000元~7000元7000元以上1%5.6%15.4%22.8%22.8%11.2%21.2%宽度为组距,高度为落入该区间的频率2、样本数据组只提供了n个数据此时对数据绘制直方图需要制图者自己选择与确定子区间的个数及如何划分,这两个因素将直接关系到直方图的形状。这是仍旧需要对数据进行子区间,划分大部分采用均分的方式,区间的个数通常在6~20之间(也有8~15个),具体要分成多少个,要有实际问题确定。假设样本数据组要划分成k个子区间,则具体划

4、分数据的原则是,设n个数据的最小值为a,最大值为b,则把b-a做为区间的长度。这种分法是比较常见的。三、茎叶图茎叶图是探索性数据分析时对数据的初步形象描绘,有点像直方图,但主要的差异在于茎叶图是用数据代替直方图中的矩形。这样既有了直观的图示,又对具体数据有大致了解。可以更细致的看出数据的分布结构。茎叶图制作的第一步是将每一个数据分解为三个部分:茎、叶以及可忽略部分。一个数,从哪一位开始可以归属于可忽略部分,需要看研究的实际情况而定。某班31名学生考试成绩如下:2545505455616468727575787981838484848586868789898990919192100茎叶图

5、与直方图一样,都可以直观的看出数据分布的情况,但茎叶图用了所有数据,没有丢失信息。从图上大致可以看出数据是否对称,分散性如何,是否有异常值,数据中间是否有间隙等。利用茎叶图也很自然的给数据进行了排序。数据分析中,常常要比较两组可比数据的分布趋向,背靠背茎叶图为此提供了方便。假如从某地区随机抽样男女居民各20名,对他们的月收入进行调查,得数据如下(单位为元):男803,659,571,778,492,295,345673,388,580,708,433,301,193435,560,767,678,288,477女680,792,583,434,425,186,288379,444,55

6、6,471,671,536,333422,236,195,345,389,400这两组数据的茎叶图可以忽略个位数而得,被忽略的个位数一般不四舍五入。茎叶图实际上是“带有数据的直方图”,忽略个位数相当于选择划分区间的端点恰为10的倍数。如果随意地将个位数四舍五入,则等于将一个区间内的某些数据武断地转到右边的区间,显然这是不妥当的。通过此图可以粗略的得到,高收入中,男性比女性多。茎叶图中,如果一行的数据过多,可以分成两行显示。§2两样本数据社会经济领域中数据组并非总是以单样本形式出现,我们还常常需要研究两个变量之间的关联程度,例如父亲的身高与成年儿子的身高;丈夫的收入与妻子的收入;股票市场

7、的上证综合指数与深圳成份指数;货币投放量及通货膨胀率;等等。本节将讲解两样本数据的初步整理分析。一相关系数给定一组两样本数据,如果根本不考虑其中一个变量的状态(比如先不考虑x),那末对y数据的概括统计量当然是和(或)。同样地单纯考虑变量x也有概括统计量。在两样本数据中极重要的一个概括统计量是x与y之间的相关系数。1)均值向量2)变量X的方差3)变量Y的方差4)变量X,Y的协方差5)协方差矩阵6)相关系数1)相关系数的绝对值最小为0,最大为1。2

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。