欢迎来到天天文库
浏览记录
ID:43363014
大小:1.30 MB
页数:157页
时间:2019-10-08
《Logistic 回归模型》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、Logistic回归模型陶庄2009-5教学内容Logistic回归模型的由来与形式Logistic回归模型参数的估计Logistic回归模型的评价Logistic回归模型系数的解释Logistic回归模型的假设检验Logistic回归模型的建立和变量的选择Logistic回归模型的回归诊断Logistic回归模型的替代与扩展一、Logistic回归模型的由来与形式掌握:Logistic回归模型的形式;熟悉:二分因变量带来的影响;了解:Logistic分布应用的理论依据。二分因变量与最小二乘法标准的线性回归假定关于因变量的假定:连续型变量;关
2、于自变量的假定:非随机;精确测量(无误差);线性无关;关于模型形式的假定:线性假定;关于观测的假定:可靠;关于误差的假定:Gauss-Markov假设。Gauss-Markov假设误差项均值为0,即E(εi)=0,i=1,…,n误差项具有等方差,即Var(εi)=σ2,i=1,…,n误差是彼此不相关的,即Cov(εi,εj)=0,i≠j,i,j=1,…,n(正态假定)最小二乘法(LS)的性质二分因变量与线性概率模型(LPM)1期望E(X)的计算二分因变量与线性概率模型(LPM)2线性概率模型残差的方差二分因变量的线性概率模型的问题由于此时线性
3、概率模型中残差的非齐性,参数估计的估计方差将是有偏的,因此任何假设检验都无效。——最小二乘法不适宜此时线性概率模型中的概率值有可能会落在〔0,1〕之外。——函数值只能接近但不能超过0和1线性概率模型是线性的,常数项和回归系数都应该是常数,可是此时不是。——非线性模型二分因变量时的线性概率模型我们的任务寻找一个非线性的函数,而且应该是单调的;寻找一个函数,它的一侧可以随自变量无限接近0,而另一侧则可以无限接近1;我们要可以使用普通最小二乘法以外的方法来估计参数。成长曲线S形与累积分布函数(CDF)Logistic函数用于二分因变量分析的理论依据
4、理论依据1假设有一个理论上存在的连续反应变量yi*代表事件发生的可能性,其值域从负无穷到正无穷;存在一理论界值c(比如为0),yi*一旦超过0,则事件发生,即yi*>0,则yi=1,其它情况,yi=0;存在一个自变量xi,并且存在如下线性关系:yi*=α+βxi+εi;理论依据2理论依据3理论依据4Logistic回归模型1Logistic回归模型2事件不发生时的模型OddsLogit变换多元(重)Logistic回归模型Logit变换的意义——可利用线性回归的许多性质但是……Logistic回归与线性回归完全不同!线性回归的因变量与自变量的
5、关系是线性的;Logistic回归不是。线性回归的因变量是连续的;Logistic回归是离散的。Logistic回归模型中不存在线性回归模型中的残差项。二、Logistic回归模型参数的估计掌握:模型参数的估计方法的名称和SAS实现;熟悉:模型参数估计的假设条件和样本规模;了解:最大似然估计的原理和性质CarlFriedrichGauss(1777-1855)最小二乘估计的发明者之一;最大似然估计的最早提出者;Gauss-Markov定理;1809误差理论:误差符合正态分布等。RonaldAylmerFisher(1890-1962)最大似然
6、估计的积极倡导者;新统计学(小样本,基础学科建设)的先驱;试验设计;相关系数的分布;F分布与方差分析;充分统计量等。似然函数(likelihoodfunction)似然函数是各个变量,观测的联合分布函数;这一函数将观测数据的概率表述为未知参数的函数。最大似然估计(MaximumLikelihoodEstimation,MLE)似然(likelihood)可以理解为某些参数再现样本观测的概率。最大似然估计是通过使似然函数的值达到最大以估计参数的方法;也就是说,这套参数可以使模型以最大的概率再现样本观测数据。Logistic回归的似然函数Logi
7、stic回归的最大似然估计最大似然估计的性质一致性(consistency):随样本规模增大,模型参数估计逐渐向真值收敛,估计将近似无偏;渐进有效性(asymptoticallyefficiency):当样本规模增大,标准误缩小;渐进正态性(asymptoticallynormal):当样本规模增大,参数估计值的分布趋近于正态分布。模型估计的样本规模对样本多大时就可以使用最大似然估计这个问题,没有明确答案。在中等规模(100)MLE性质较好;小于100则风险较大,达到500即很充分。一般每个参数至少需要5-10个观测;如果存在共线性或自变量取
8、值变化太小,则需要较大样本;如果因变量分类增多,也需要增大样本。Logistic回归模型估计的假设条件数据必须来自随机样本;因变量y是二分变量,且y是k个自变量的函
此文档下载收益归作者所有