Logistic statistic model

Logistic statistic model

ID:43403312

大小:888.51 KB

页数:15页

时间:2019-09-30

Logistic statistic model_第1页
Logistic statistic model_第2页
Logistic statistic model_第3页
Logistic statistic model_第4页
Logistic statistic model_第5页
资源描述:

《Logistic statistic model》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、LogisticStatisticModel一、基本概念1.什么是P-Value?这是统计学中最重要的基本概念,所谓P-Value是指拒绝H0所犯的第一类错误,通常阈值是0.05.也就是说,不管是什么统计量(F统计量,T统计量,卡方统计量等等),在H0假设成立下都会有一个唯一对应的P-Value,如果算出来的P-Value小于阈值,则说拒绝H0,反之,不能拒绝H0,但是千万不要说接受H0!2.什么是点估计和区间估计?点估计:利用样本数据对未知参数进行估计得到的是一个具体的数据。区间估计:通过样本数据估计未知参数在置信度下的最可能的存在区间得到的结果是一个区间。3.什么是置

2、信区间?在一定置信水平时,以测量结果为中心,包括总体均值在内的可信范围。4.什么是LSE(LeastSquaresEstimation)和MLS(MaximumLikelihoodEstimation)?LSE是最小化误差的平方和估计分布中参数出现的值。MLS是估计分布中参数最大可能出现的值(注意:不是最大值,是最大可能性)。不管是LSE还是MLS,其样本背后所隐含的分布都是假设为已知分布。这一点请务必注意。考虑一个抛硬币的例子。假设这个硬币正面跟反面轻重不同。我们把这个硬币抛80次(即,我们获取一个采样并把正面的次数记下来,正面记为H,反面记为T)。并把抛出一个正面的概

3、率记为p,抛出一个反面的概率记为1−p(因此,这里的p即相当于上边的θ)。假设我们抛出了41个正面,39个反面,即41次H,39次T。由于它背后隐含的是二项分布,使用最大似然估计,通过这些试验数据(即采样数据),我们可以计算出哪个硬币的可能性最大。这个可能性函数取以下三个值中的一个:可以计算,当p=1/2时,可能性函数取得最大值。这就是P的最大似然估计.1.选择预测模型时一定要考虑响应变量分布吗?不一定:当我们只预测响应变量的点估计时,不需要考虑,此时点估计的值只和你假定的Y与X之间的关系有关,于Y是什么分布无关。可以通过LSE或者MLS来估计Y的值。但是如果我们要预测Y

4、值的区间估计,或者要对预测系数进行显著性检验时,就需要考虑Y是什么分布了。二、logistic回归模型假设在自变量X1,X2,…,Xn作用下,某事件发生的概率为P,则该事件不发生的概率为1-P,P/1-P为发生概率和不发生概率之比,记做“优势”(Odds),若对Odds取自然对数,得到:称为P的logit变换,则logistic回归模型为:则概率计算公式为:Logistic回归模型与一般线性回归模型的区别:第一,线性回归模型的结果变量(outcomevariable)或因变量(dependentvariable)或反应变量(responsevariable)与自变量之间的

5、关系是线性的,而Logistic回归中因变量与自变量之间关系是非线性的。第二,在线性回归中通常假设,对应自变量X的某个值,因变量Y的观测值具有正态分布,但是在logistic回归中,因变量Y却是二项发布(0和1)或多项分布。第三,在logistic回归中,不存在线性回归中有的残差项。三、Logistic回归模型估计方法论和假设条件Logistic回归模型估计采用是MLS方法论来估计参数。其假设条件与LSE回归比较类似。第一,数据必须来自随机样本。第二,因变量Y被假定为K个自变量的函数。第三,自变量是确定性变量,不是随机变量。第四,正如LSE回归,logistic回归也对多

6、元共线性(muliti-collinearity)敏感。自变量之间存在多元共线性也会导致标准误的膨胀。但是还有一些与LSE不同的假设:第一,因变量Y是分类变量,研究的兴趣是在X发生时事件发生的条件概率。第二,自变量和因变量之间是非线性关系,可以通过Logit函数转换成线性关系。第三,在LSE回归中对残差要求独立同分布(IID),但在logistic中却不需要,因为logistic没有残差项。四、logistic回归模型评价在实际应用中,人们往往只对回归模型自身的“好坏”以及回归系数的显著性关注,评价回归模型“好坏”的主要指标有:1.拟合优度(goodnessoffit)拟

7、合优度度量的是预测值和观测值之间的一致性。但是在评价模型时,实际上测量的是预测值和观测值之间的差别,也就是说,我们实际上检验的是模型预测的“劣度”,而不是“优度”,即拟合不佳检验(lackoffittest)。常用的两个指标:Hosmer-Lemeshow指标和信息测量指标(InformationMeasures)。1.1HL指标是一种类似于皮尔逊卡方统计量的指标,其对应的H0是预测值概率和观测值之间无显著差异,所以,如果HL指标显示较大的P-Value,说明统计结果不显著,因此,我们不能拒绝关于模型拟合数据很好的假设,换句话

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。