欢迎来到天天文库
浏览记录
ID:38584369
大小:426.50 KB
页数:62页
时间:2019-06-15
《统计建模-回归分析》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、统计建模─回归分析相关分析对于现实世界,不仅要知其然,而且要知其所以然。顾客对商品和服务的反映对于企业是至关重要的,但是仅仅有满意顾客的比例是不够的;商家希望了解什么是影响顾客观点的因素,及这些因素如何起作用。类似地,医疗卫生部门不能仅仅知道某流行病的发病率,而且想知道什么变量影响发病率,以及如何影响。相关分析发现变量之间的统计关系,并且用此规律来帮助我们进行决策才是统计实践的最终目的。一般来说,统计可以根据目前所拥有的信息(数据)来建立人们所关心的变量和其他有关变量的关系。这种关系一般称为模型(model)。如果两个定量变量没有关系
2、,就谈不上建立模型或进行回归。但怎样才能发现两个变量有没有关系呢?最简单的直观办法就是画出它们的散点图。下面是四组数据的散点图;每一组数据表示了两个变量x和y的样本。不相关正线性相关负线性相关相关但非线性相关Pearson相关系数(Pearson’scorrelationcoefficient)又叫相关系数或线性相关系数Kendallt相关系数(Kendall’st)Spearman秩相关系数(Spearmanrankcorrelationcoefficient或Spearman’sr)相关性的度量相关系数也是取值在-1和1之间当两个
3、变量有很强的线性相关时,相关系数接近于1(正相关)或-1(负相关)当两个变量不那么线性相关时,相关系数就接近0。SPSS的相关分析相关分析(hischool.sav)利用SPSS选项:Analize-Correlate-Bivariate再把两个有关的变量(这里为j3和s1)选入,选择Pearson,Spearman和Kendall就可以得出这三个相关系数和有关的检验结果了(零假设均为不相关)。例1有50个从初中升到高中的学生。为了比较初三的成绩是否和高中的成绩相关,得到了他们在初三和高一的各科平均成绩(数据在highschool.s
4、av)。这两个成绩的散点图如下。但对于具体个人来说,大约有一半的学生的高一平均成绩比初三时下降,而另一半没有变化或有进步目前的问题是怎么判断这两个变量是否相关、如何相关及如何度量相关?能否以初三成绩为自变量,高一成绩为因变量来建立一个回归模型以描述这样的关系,或用于预测。该数据中,除了初三和高一的成绩之外,还有一个定性变量(没有出现在上面的散点图中)。它是学生在高一时的家庭收入状况;它有三个水平:低、中、高,分别在数据中用1、2、3表示。为研究家庭收入情况对学生成绩变化的影响,下面点出两个盒形图,左边一个是不同收入群体的高一成绩的盒形
5、图,右边一个是不同收入群体的高一和初三成绩之差的盒形图。到底学生在高一的家庭收入对成绩有影响吗?是什么样的影响?是否可以取初三成绩(这是定量变量)或(和)家庭收入(定性变量)为自变量,而取高一成绩为因变量,来建立一个描述这些变量之间关系的回归模型呢?初三和高一成绩的Pearson相关系数,Kendallt相关系数和Spearman秩相关系数分别为0.795,0.595和0.758。这三个统计量相关的检验(零假设均为不相关)全部显著,p-值都是0.000。注意这种0.000的表示并不表示这些p-值恰好等于零,只是小数点前三位是0而已。一
6、元线性回归分析对例1中的两个变量的数据进行线性回归,就是要找到一条直线来适当地代表图1中的那些点的趋势。首先需要确定选择这条直线的标准。这里介绍最小二乘回归(leastsquaresregression)。古汉语“二乘”是平方的意思。这就是寻找一条直线,使得所有点到该直线的豎直距离的平方和最小。用数据寻找一条直线的过程也叫做拟合(fit)一条直线。1.一元线性回归的基本概念一元线性回归可用来分析自变量x取值与因变量Y取值的内在联系,不过这里的自变量x是确定性的变量,因变量Y是随机性的变量。进行n次独立试验,测得数据如下:一元线性回归由
7、回归方程可以推出根据样本及其观测值可以得到α、β及σ2的估计量及估计值得到回归方程的估计式或经验回归方程一元线性回归有多种确定回归方程也就是确定未知参数的方法,其中最常用的是最小二乘法,即求出,使下列函数最小一元线性回归Regression菜单线性回归:包括简单线性回归和多元线性回归,由Linear过程实现非线性回归是线性趋势向非线性趋势的拓展,包括CurveEstimation过程和NonlinearRegression过程分析步骤做出散点图,观察变量间的趋势。考察数据的分布,做必要的预处理分析变量的正态性和方差齐性等问题。进
8、行线性回归分析残差分析,检查残差的独立性和正态性强影响点的诊断和多重共线性问题的判断常用指标偏回归系数b反映相应一个自变量上升一个单位时,应变量取值的变动情况决定系数R2即相应的相关系数的平方,用R2表示。反映应变量y的
此文档下载收益归作者所有