欢迎来到天天文库
浏览记录
ID:39045878
大小:336.01 KB
页数:33页
时间:2019-06-24
《《线性回归》PPT课件》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第四部分回归分析回归分析的概念一元线性回归多元线性回归多项式回归非线性回归逐步回归7/15/202114.1回归分析的概念在工农业生产和科学研究中,常常需要研究变量之间的关系。变量之间的关系可以分为两类:确定性关系、非确定性关系。确定性关系就是指存在某种函数关系。然而,更常见的变量之间的关系存在着某种不确定性。例如:商品的销售量与当地人口有关,人口越多,销售量越大,但它们之间并没有确定性的数值关系,同样的人口,可能有不同的销售量。这种既有关联,又不存在确定性数值关系的相互关系,就称为相关关系。回归分析就是研究变量之间相关关系的一种数
2、理统计分析方法。在回归分析中,主要研究以下几个问题:7/15/202124.1回归分析的概念(1)拟合:建立变量之间有效的经验函数关系;(2)变量选择:在一批变量中确定哪些变量对因变量有显著影响,哪些没有实质影响;(3)估计与检验:估计回归模型中的未知参数,并且对模型提出的各种假设进行推断;(4)预测:给定某个自变量,预测因变量的值或范围。根据自变量个数和经验函数形式的不同,回归分析可以分为许多类别。7/15/202134.2一元线性回归一元线性回归模型给定一组数据点(x1,y1),(x2,y2),...,(xn,yn),如果通过散
3、点图可以观察出变量间大致存在线性函数关系,则可以建立如下模型:其中a,b称为一元线性回归的回归系数;ε表示回归值与测量值之间的误差。针对该模型,需要解决以下问题:(1)如何估计参数a,b以及σ2;(2)模型的假设是否正确?(3)如何应用所求的回归方程对试验指标进行预测。7/15/202144.2一元线性回归回归系数的最小二乘估计已知(x1,y1),(x2,y2),...,(xn,yn),代入回归模型得到:采用最小二乘法(即使观测值与回归值的离差平方和最小):7/15/202154.2一元线性回归回归系数估计量的性质7/15/2021
4、64.2一元线性回归对σ2的估计对a,b,σ2的区间估计7/15/202174.2一元线性回归样本相关系数及其显著性检验显然:样本相关系数R的符号决定于Lxy,因此与相关系数b的符号一致。说明:(1)当R=0时,Lxy=0,因此b=0,说明Y的变化与X无关,此时Y与X毫无线性相关关系;(2)当R=±1时,所有的样本点都在回归直线上,此时称Y与X完全线性相关,R=1,完全正相关,R=-1,完全负相关;(3)当0<
5、R
6、<1时,说明X与Y存在一定的线性相关关系,07、/15/202184.2一元线性回归给定显著性水平a,查表得F的临界值Fa,若F*>Fa(F*为F的观测值),则拒绝假设即认为X与Y之间相关关系显著;否则认为Y与X不存在线性相关关系;也可使用P=P{F>F*}来比较,若PFa),则拒绝假设即认为X与Y之间相关关系显著;一般使用时,P接近于0。显著性检验:原假设H0:b=0的值可以使用polyfit()或regress()命令计算,用法参看MATLAB具体说明。7/15/202194.2一元线性回归利用回归模型进行预测当回归模型和系数通过检验后,可由给定的x0值代入回归8、方程得到Y的点预测值y0:给定显著性水平a,可以得到Y的预测区间:7/15/2021104.2一元线性回归利用回归模型进行控制观察值y在某个区间(y1,y2)取值时,应如何控制x的取值范围,使得响应的观察值落入指定区间的概率至少为1-a.解方程:解得x1,x2,即可以得到x的控制区间的两个端点值。x1x2y2y17/15/2021114.2一元线性回归异常数据的剔除当用regress()命令得到回归模型的系数估计值和残差及残差置信区间时,由于残差符合均值为零的正态分布,所以残差置信区间应该通过零点。用rcoplot(r,rint)画9、出残差图,由图可容易看出异常数据点,剔除这些异常点,重新进行回归分析,可使模型预测更精确。7/15/2021124.2一元线性回归例4.1人口预测1949年—1994年我国人口数据资料如下:年份xi49545964697479848994人数yi5.46.06.77.08.19.19.810.311.311.8建模分析我国人口增长的规律,预报1999、2005年我国人口数。建模分析步骤:(1)在坐标系上作观测数据的散点图。(2)根据散点分布的几何特征提出模型(3)利用数据估计模型的参数(4)计算拟合效果(1)散点图7/15/202110、134.2一元线性回归(2)人口线性增长模型假设:人口随时间线性地增加,模型:y=a+bx+ε(3)利用数据估计模型的参数观测值的模型:yi=a+bxi+εi,i=1,…,n拟合的精度:Q=Σεi2=Σ(yi-a–bxi)2,误差平方
7、/15/202184.2一元线性回归给定显著性水平a,查表得F的临界值Fa,若F*>Fa(F*为F的观测值),则拒绝假设即认为X与Y之间相关关系显著;否则认为Y与X不存在线性相关关系;也可使用P=P{F>F*}来比较,若PFa),则拒绝假设即认为X与Y之间相关关系显著;一般使用时,P接近于0。显著性检验:原假设H0:b=0的值可以使用polyfit()或regress()命令计算,用法参看MATLAB具体说明。7/15/202194.2一元线性回归利用回归模型进行预测当回归模型和系数通过检验后,可由给定的x0值代入回归
8、方程得到Y的点预测值y0:给定显著性水平a,可以得到Y的预测区间:7/15/2021104.2一元线性回归利用回归模型进行控制观察值y在某个区间(y1,y2)取值时,应如何控制x的取值范围,使得响应的观察值落入指定区间的概率至少为1-a.解方程:解得x1,x2,即可以得到x的控制区间的两个端点值。x1x2y2y17/15/2021114.2一元线性回归异常数据的剔除当用regress()命令得到回归模型的系数估计值和残差及残差置信区间时,由于残差符合均值为零的正态分布,所以残差置信区间应该通过零点。用rcoplot(r,rint)画
9、出残差图,由图可容易看出异常数据点,剔除这些异常点,重新进行回归分析,可使模型预测更精确。7/15/2021124.2一元线性回归例4.1人口预测1949年—1994年我国人口数据资料如下:年份xi49545964697479848994人数yi5.46.06.77.08.19.19.810.311.311.8建模分析我国人口增长的规律,预报1999、2005年我国人口数。建模分析步骤:(1)在坐标系上作观测数据的散点图。(2)根据散点分布的几何特征提出模型(3)利用数据估计模型的参数(4)计算拟合效果(1)散点图7/15/2021
10、134.2一元线性回归(2)人口线性增长模型假设:人口随时间线性地增加,模型:y=a+bx+ε(3)利用数据估计模型的参数观测值的模型:yi=a+bxi+εi,i=1,…,n拟合的精度:Q=Σεi2=Σ(yi-a–bxi)2,误差平方
此文档下载收益归作者所有