欢迎来到天天文库
浏览记录
ID:59837553
大小:12.42 MB
页数:54页
时间:2020-11-24
《《简单回归分析》PPT课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、医学统计学福医卫生统计系林征2013.11第九章.线性回归ChapterX.LinearRegressionFrancisGaltonSirFrancisGalton(1822-1911)“thesize(heights)ofdescendantsoflargepeas(tallancestors)tendtoregressdowntowardsanormalaverage”一、直线回归(linearregression)直线回归它们呈直线关系,但所有的点并非都在直线上;它们间的关系并非下列严格的函数关系根据散点图所反映出的两变量线性趋势,我们可以假定,相对x各个取值相应的y的总体均数位于一条
2、直线上,与x间在数量上的依存关系就称为直线回归(linearregression),用以下公式表示y的条件总体均数依赖于x的数值变化直线回归一般情况下回归方程只能从样本得到,称为样本回归方程或经验回归方程如果以表示的一个样本估计值,即x确定时y的样本均数,则样本回归方程可以表达如下:上式中的读作“yhat”直线回归(linearregression)y——因变量,响应变量:尿肌酐含量(mmol/24h)(dependentvariable,responsevariable)x——自变量,解释变量:体重(kg)(independentvariable,explanatoryvariable)b—
3、—回归系数,斜率(mmol/24h*kg)(regressioncoefficient,slope)a——截距(mmol/24h)(intercept)直线回归假定了一条回归直线,该直线表达了自变量X与对应的因变量Y的总体均数间的数量关系:my
4、x=a+bxY的实际观察值y并不总在该回归线上,而是与其所对应的总体均数间(my
5、x)存在差别,这部分的差别称为残差e,表示y的随机抽样误差:y=my
6、x+=a+bx+XYmy
7、x=a+x}}1{xy回归直线直线回归0{a简单线性回归由于涉及的自变量只有一个,所以这种线性回归又称为简单线性回归模型(simplelinearregression
8、model)LINE假定xy二、回归模型的前提假设线性(linear):因变量均数y
9、x与自变量x间呈直线关系y
10、x=α+x独立(independent):任意观察值之间彼此独立正态(normal):对于任何给定的x,y服从正态分布,均数为y
11、x,标准差为y
12、x方差齐性(equalvariance):对于任何x值,随机变量y的方差y
13、x2相等y
14、x=α+xN(my
15、x,sy
16、x2)三、回归参数的估计根据一个给定的包含n对X和Y观测数据的样本,可以建立样本回归直线但是并非所有实际测量值y都在该回归线上,即实测值与直线估计值间存在误差——残差求解a、b实际上就是“合理地”找到一条能
17、最好地代表数据点分布趋势的直线,使估计值尽可能接近观测值,使得残差尽量小最小二乘法(leastsumofsquares)原则:各实测点至直线的纵向距离(残差)的平方和最小Y尿肌酐X年龄6789101112132.202.502.803.103.50最小二乘估计回归参数的估计方法依据最小二乘法的估计原则,利用微积分中求极值的方法可以求得直线的斜率(回归系数)与截距回归参数的估计方法散点图提示x,y间呈现直线关系任意不同个体间两个指标均独立根据医学常识,同龄人的尿肌酐含量满足正态分布不同年龄人群的尿肌酐含量离散程度接近?回归参数的估计方法代入上述公式得(计算器可直接得到a与b):故回归方程为:回归
18、直线的特征回归直线通过样本均值:估计值的均值=实测值的均值:残差之和为0:四、总体回归系数b的统计推断求得a、b建立样本直线回归方程,只是完成了统计分析中两变量关系的统计描述研究者还须回答它所来自的总体的直线回归关系是否确实存在(b也有抽样误差),即是否对总体有b=0?总体回归系数b的统计推断YX我们所见的Y值的变异—Sy2(不考虑x的作用)沿着回归线看去,Y的变异情况——Sy.x2(扣除回归作用后还剩余的)XY估计误差(errorofestimate)与估计误差的标准误(standarderrorofestimate)如上图中所表示,将各实际值y与由回归方程计算的估计值yhat之间的差值称为
19、估计误差(即残差)如何评价这种估计误差的大小?类似于之前介绍的反映数据变异程度的指标——标准差,将残差的标准差Sy.x(standarderrorofestimate)作为估计误差大小的反映由于yhat决定于均数与回归系数,所以自由度为n-2,公式如下:它反映了散点围绕回归直线的分散程度,体现了回归直线估计误差的大小;如果回归模型越好则估计值的标准误也越小样本回归系数b的标准误对于某一总体资料,可
此文档下载收益归作者所有