资源描述:
《Mathematica基础数学实验14》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、实验十四回归分析简介由于客观事物内部规律的复杂及人们认识程度的限制,无法分析实际对象内在的因果关系,建立合乎机理规律的数学模型.数学建模的基本方法:机理分析和测试分析.通过对数据的统计分析,找出与数据拟合最好的模型.回归模型是用统计分析方法建立的最常用的一类模型.简单介绍回归分析的数学原理和方法;通过实例讨论如何选择不同类型的模型;对软件得到的结果进行分析,对模型进行改进.一、线性回归分析基本概念例1:F.Galton断言:儿子的身高会受父亲身高的影响,但身高偏离父代平均水平的父亲,其儿子身高有回归子代平均水
2、平的趋势.K.Pearson给出了如下样本(单位:英吋):父亲身高60626465666768707274儿子身高63.665.266.065.566.967.167.468.370.170.0设父亲身高为x,儿子身高为y.显然,y与x有关系,但这种关系并不是确定的,即父亲身高x相同时其儿子身高y并不是确定的,也就是说,y除受x这一主要因素的影响外,还受到诸多随机因素的影响.这种关系被称为相关关系.在一般情况下,y为随机变量,而x为可控制或可精确观察的变量,如年龄,身高,温度,压力,时间等,因此不把x看作随机
3、变量.由于y为随机变量,则对于x的每一个确定的值,有它的分布.若y的数学期望Ey存在,则Ey取值随x的取值而定,因此Ey是x的函数,记作(x),称(x)为y关于x的回归.由于(x)的大小在一定程度上反映在x处随机变量y的观测值的大小,因此,如果能通过一组样本来估计(x),则在一定条件下我们就能解决如下问题:(1)在给定的置信度下,估计出当x取某一确定值时,随机变量y的取值范围,即所谓预测问题;(2)在给定的置信度下,控制自变量x的取值范围,使y在给定范围内取值,即所谓控制问题.对于x的取定的一组不完全
4、相同的值x1,x2,···,xn,作独立的试验,得到n对(一组)观察结果:(x1,y1),(x2,y2),···,(xn,yn),其中yi是x=xi处对随机变量y的观测结果.这n对观察结果就是一个容量为n的样本.由样本估计(x),首先需要推测(x)的形式.方法一,根据所述问题的实际意义,可以知道(x)的形式;方法二,当自变量仅有一个时,描绘出样本的散点图;方法三,试探性回归.对于父子身高问题,我们根本就不知道其关系的形式,但我们通过散点图,发现儿子身高与父亲身高呈线性关系,因此可设:y=a+bx+其中
5、~N(0,2),即y~N(a+bx,2),a,b,与x无关.利用mathematica5.0软件包作线性回归:<6、.回归方程:y=35.9768+0.46457x.方差估计值为:s2=0.186697二、线性回归分析计算输出结果的说明:ParameterTable:参数表,Estimate:系数估计SE:标准差TStat:T统计量PValue:检验统计量的概率值RSquared:相关系数R2,AdjustedRSquared:修正的相关系数,EstimatedVariance:方差2的估计值s2.ANOVATable:方差分析表,Model:模型,Error:误差,Total:总和,DF:自由度SumOfSq:平方和M
7、eanSq:均方偏差FRatio:F比三、一元线性回归的预测区间:由于则y0的置信度为1–的预测区间为:其中s为均方差的估计值;为y在x0处的估计值;Sxx为自变量x的偏差平方和,可以用回归(或模型)的平方和除以b的估计值计算.称为预测半径.在父子身高问题中,则预测半径为:由此公式,当输入父亲的身高值,即可推算出儿子身高的估计值和预测区间.当父亲身高为65.5英吋,其子身高的估计值为66.41英吋,95%的预测半径为1.05,置信区间为:(66.41–1.05,66.41+1.05)(65.36,67.
8、46)四、一元线性回归的控制问题:由于预测问题的预测半径的表达式过于复杂,经常使用如下的近似表达式:95%的预测区间:99%的预测区间:这是由于常假设回归模型的误差~N(0,2).用近似预测区间来解决控制问题变得简单.控制问题的描述:当随机变量y以概率1-落在区间(A,B)内即A