欢迎来到天天文库
浏览记录
ID:51178759
大小:1019.50 KB
页数:23页
时间:2020-03-19
《孙善伟-统计方法与数据分析解析.ppt》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、1孙善伟2011-10-8统计方法与数据分析StatisticalMethodsandDataAnalysis2什么是统计?1.统计是用来处理数据的:数据&数字2.统计运用的工具:1)计算;2)图表统计是一门从数据中学习的科学,即从数据中找出信息,并且得出结论。3为什么要学习统计?1.社会科学、行为学、生物学、物理学、人类学…美国研究生的必修课。2.商业:运用抽样数据预测未来的销售额和利润;工程、制造业:质量监督;other:主管会计对账目的稽查ect.统计在科学、商业、工业等几乎所有领域中都扮演着重要的角色。几个问题?4本课程的内容---统计1.描述性统计2.推论性统计3.图形应用
2、5描述性统计DescriptiveStatistic用于整理、描述所收集数据的特征.人的特征?数据特征?描述性统计①中心趋势度量②变异性度量6集中趋势量数---1.均值(Mean):调整平均值(截尾平均值)加权平均值2.中位数(Median):一系列数据的中点。下四分位数(Q1)、上四分位数(Q3);3.众数(Mode):出现次数最多的数值。最笼统、最不精确的集中趋势量数。中国CPI构成和各部分比重,2011年最新调整为:1食品31.79%2烟酒及用品3.49%3居住17.22%4交通通讯9.95%5医疗保健个人用品9.64%6衣着8.52%7家庭设备及维修服务5.64%8娱乐教育文
3、化用品及服务13.75%※思考:均值有何缺陷?7集中趋势量数的性质---均值----1.均值是测量值的算术平均值;2.一个数据集合仅有一个均值;3.均值受极值的影响;截尾有助于减少这种影响4.仅适用于定量数据。中位数----1.中位数是数据的中点,50%的数据比它大,50%的数据比它小;2.一个数据集合仅有一个中位数;3.不受极端测量值的影响;4.仅适用于定量数据。8集中趋势量数的性质---众数----1.众数是数据集中出现次数最多的数据;2.一个数据集合中可能存在不止一个众数,也可能不存在众数;3.适用于定量数据和定性数据。例1.下列数据集的众数是---A)4、5、5、6、8、8、
4、9B)格力、美的、格力、格力、C)1、2、4、5、79数据的变异性---数据集一:7、6、3、3、1数据集二:3、4、4、5、4数据集三:4、4、4、4、4只用集中趋势量描述数据集充分吗?变异性:也叫散布或离散度;是对不同数值之间的差异性的测量。变异性的计算?特定值?变异性:数据中每一个数值与均值的差异性的度量。10变异量数---极差(range):R=max-min;标准差(standarddeviation):一个数组中变异性的平均数量。∑(Xi–X)²n–1S=标准差的计算公式:※思考---1)为什么是取的平方根?2)为什么除以n-1而不是除以n?四分位数极差:IQR=Q3-Q
5、1;11变异量数---标准差的性质:1)标准差是作为偏离平均值的平均距离计算的;2)标准差越大,数值分布越广,数值之间的相互差异越大;3)和均值一样,标准差对极值很敏感;※思考:如果S=0,是否代表数据组中的数据就绝对没有变异性?12变异量数---方差(Variance):标准差的平方。∑(Xi–X)²n–1S2=方差的计算公式:※思考:方差一般不用作描述性统计,是不是说方差不重要?13推论性统计---描述性统计是用于描述样本的特征,而推论统计是基于样本特征推断总体的某些特征。推论性统计①估计:点估计、区间估计;②检验:t检验、方差分析…14点估计与区间估计---区间估计:通过从总体
6、中抽取的样本,根据一定的正确度与精确度的要求,构造出适当的区间,以作为总体的分布参数的真值所在范围的估计.点估计:又称为定值估计,就是用实际样本指标的数值作为总体的估计值。点估计1.样本均值作为母体均值的估计2.样本方差作为母体方差的估计3.样本相关系数作为母体相关系数的估计原理:区间估计(intervalestimation)是从点估计值和抽样标准误出发,按给定的概率值建立包含待估计参数的区间.其中这个给定的概率值称为置信度或置信水平(confidencelevel).15假设检验---假设检验:假设检验亦称“显著性检验(Testofstatisticalsignificance)
7、”,是用来判断样本与样本,样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。其基本原理是先对总体的特征作出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受作出推断。16应用示例---例1.同种规格的胚带染深色号和浅色号的带子幅宽有没有差异;现收集同一批2寸2分的罗纹胚带在染030#和112#色号后的成品幅宽;1)对幅宽值用描述性统计量进行分析;2)估计030#/112#成品带幅宽的95%置信区间;3)用假设检验确认030#和1
此文档下载收益归作者所有