欢迎来到天天文库
浏览记录
ID:21550992
大小:191.00 KB
页数:21页
时间:2018-10-19
《数据整理及数据的描述》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、数据整理及数据的描述统计数据来源:统计报表(制度)频数(率)分布直方图-适当分组,确定组限、组中值-编织频数分布表重点调查典型调查抽样调查非全面调查:全面调查:如第五次人口普查专门调查例共50人50—605人60—7011人70—8017人80—9011人90—1006人成绩(分)频数(次)频率(%)累计频率(%)50—60510.010.060—701122.032.070—801734.066.080—901122.088.090—100612.0100.0合计50100------直方图频率(%)频数(人)11225105
2、565758595●分布特征从直方图到分布曲线●直方图给出一种“分布”的直观形式●钟型分布如身高、体重、成绩●U型分布如人群健康(生病)●正反J型●劳伦兹曲线本世纪初将两种累计频率对应图示前例50人总分3770分010326688100100856026.57.3●基尼系数A/(A+B)越小越均匀(公平)●思考:与ABC分类法的关系?●例6,9,12,15,18宽度定为1时,所绘图形上可以面积表示频率大小任何一个关于频率的直方图,可以经适当度量变换,以分布形状的面积大小来度量频率大小。如某地区2010075%0.31.642.1
3、分布的数字特征均值:X=(∑Xi)/n离散趋势方差:S2=[∑(Xi-X)2]/(n-1)例:6,9,12,15,18均值:X=(6+9+12+15+18)/5=12方差:S2=[36+9+0+9+36]/4=22.5从直方图描述到分布描述随机变量及其概率分布前例6,9,12,15,18可以看作一种客观存在的分布从另一个观点,如果5个数中每次取一个,则有P(X=6)=1/5,P(X=9)=1/5,…,P(X=18)=1/5.由6,9,12,15,18等可能的随机产生的性质,我们得到了概率分布图。若适当选取度量单位,如使每个直方条
4、的宽度为1,则可以用面积大小表示概率大小,如P(9<=X<=15)=0.6,即途中三个直方条的面积总和。于是现在我们可以用函数描述与处理随机现象。概率意义上的平均值,称数学期望(有时我们不再区分两者,其意自明)伯努利分布抛硬币正面X=1,P(X=1)=1/2反面X=0,P(X=0)=1/210个产品中2个次品,取一件,得正品为1,次品为0。有P(X=1)=8/10,P(X=0)=1/5,一般设P(X=1)=pP(X=0)=q=1-p(0
5、2p+p2q=pq二项分布(N重伯努利分布)设产品中正品率位p,次品率为q=1-p,抽后放回,重复n此,以k表示n池中得到正品的次数,则有重要结果E(X)=npVar(X)=npq正态分布前例,某地区身高分布同样可做两种理解:大量数据整理后的频率直方图任取一人,其身高的概率分布图身高、体重、成绩、加工零件的尺寸等均服从这种分布,称“正态分布”。总体两大,分组越细越近于曲线,为便于用数学手段进行分析,有其“理论模式”抽样分布与抽样定理抽样与抽样分布总体与样本总体:所论全体,大集合样本:抽取部分,子集目的:以样本去反映,“代表”总体
6、。总体分布是最全面的信息,往往不知道;通过抽样,取得数据,如样本均值、方差得去看主题。重要的是分析的分布与总体分布之间或与总体参数、等的关系。2抽样分布就是抽样均值所遵循的分布。如抽样一次,但理论上应付从某种与总体参数有关的分布P9101112131415样本均值与样本方差==nS2n-1抽样定理总体为正态时成立,均值不变,密集度增加一般总体,但n足够大时亦近似成立(可进一步理解正态分布的成因)二项“类”,如“赞成,反对”抽样,有~~由,可以说明计算(定义式)的缘由。
此文档下载收益归作者所有