广义线性模型

广义线性模型

ID:39242245

大小:1.77 MB

页数:34页

时间:2019-06-28

广义线性模型_第1页
广义线性模型_第2页
广义线性模型_第3页
广义线性模型_第4页
广义线性模型_第5页
资源描述:

《广义线性模型》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、广义线性模型广义线性模型*(Nelder和Wedderburn,1972)除了正态分布,也允许反应分布,以及模型结构中的一定程度的非线性。GLM具有基本结构g(µi)=Xiβ,其中μi≡E(Yi),g是光滑单调'链接函数',Xi是模型矩阵的第i行,X和β是未知参数的向量。此外,GLM通常会做出Yi是独立的和Yi服从一些指数族分布的假设。指数族分布包括许多对实际建模有用的分布,如泊松分布,二项分布,伽马分布和正态分布。GLM的综合参考文献是McCullagh和Nelder(1989),而Dobson(2001)提供了一个全面的介绍。因为广义线性模型是以“线性预测器”Xβ的

2、形式详细说明的,所以线性模型的许多一般想法和概念通过一些修改而继续存在到广义线性模型中。除了必须选择的链接函数和分布之外,基本模型公式与线性模型公式基本相同。当然,如果恒等函数被选择作为链接以及正态分布,那么普通线性模型将作为特例被恢复。然而,泛化是以某种成本为代价的:现在的模型拟合必须要迭代完成,而且用于推理的分布结果是近似的,并且由大样本限制结果证明是正确的而不是精确的。但在深入探讨这些问题之前,请考虑几个简单的例子。µi=cexp(bti),例1:在疾病流行的早期阶段,新病例的发生率通常会随着时间以指数方式增加。因此,如果μi是第ti天的新病例的预期数量,则该形式

3、的模型为请注意,“广义”和“一般”线性模型之间存在区别-后一个术语有时用于指除简单直线以外的所有线性模型。可能是合适的,其中c和b是未知参数。通过使用对数链路,这样的模型可以变成GLM形式log(µi)=log(c)+bti=β0+tiβ1(根据β0=logc和β1=b的定义)。请注意,模型的右侧现在在参数中是线性的。反应变量是每天新病例的数量,因为这是一个计数,所以泊松分布可能是一个合理的可以尝试的分布。因此,针对这种情况的GLM使用泊松反应分布,对数链路和线性预测器β0+tiβ1。,例2:狩猎动物捕获猎物的速度yi往往随着猎物密度xi的增加而增加,但最终会趋于平衡,

4、当捕食者捕获尽可能多的猎物时。对于这种情况一个合适的模型可能是15其中a是未知参数,表示最大捕获率,h是未知参数,表示捕获率为最大速率一半时的猎物密度。很显然,这个模型在其参数中是非线性的,但是通过使用倒数链路,右边的参数可以是线性的:(这里β0≡1/a和β1≡h/a)。在这种情况下,猎物捕获率的标准差可能与平均速率大致成比例,建议使用Gamma分布作为反应,并完成模型设定。们不限于示例的简单直线形式,但可以有对于线性模型可能具有的线性预测器的任何结构。2.1GLMs的理论GLM的估计和推理基于最大似然估计理论,尽管可能性的最大化需要迭代最小二乘法,与1.8.6节的方法

5、相关。本部分首先介绍指数分布族,它允许发展一种通用方法来最大化GLM的可能性。然后基于似然理论的一般结果(在本章末尾推导)来讨论GLM的推论。在本节中,区分反应数据y和Y的观察值的随机变量有时很有用,所以它们在符号上具有区别性:对于估计和估计值,它尚未完成。152.1.1指数族分布fθ(y)=exp[{yθ−b(θ)}/a(φ)+c(y,φ)],GLM中的反应变量可以来自指数族的任何分布。如果一个分布的概率密度函数或概率质量函数可以写成,则该分布属于指数族分布15其中b,a和c是任意函数,φ是任意的“尺度”参数,并且θ被称为分布的“典范参数”(在GLM上下文中,θ将完全

6、依赖于模型参数β,但是目前没有必要做这个明确)。例如,很容易看出,正态分布是指数族的一员,因为,.表2.1给出了在R中为GLM实施的指数族成员的类似分解。用a,b和φ可以得到指数族分布的均值和方差的一般表达式。给定一个特定的y,θ的对数似然性仅仅只是将log[fθ(y)]视为θ的一个函数。那是.将l作为一个随机变量来处理,通过用随机变量Y替换特定的观测值y,可以评估∂l/∂θ的期望值:使用E(∂l/∂θ)=0这个一般结果,(在θ取真值时,参见2.4节中的(2.14))和重新排列意味着E(Y)=b0(θ)。(2.1)即任何指数族随机变量的均值由bw.r.t.的一阶导数给出

7、。θ,其中b的形式取决于特定的分布。该等式是将GLM的模型参数β与指数族的典范参数联系起来的关键。在GLM中,参数β决定了反应变量的均值,并且通过(2.1),它们决定了每个反应观测值的典范参数。,再次对似然性微分处理,并将其插入到一般结果中,E(∂2l/∂θ2)=-E[(∂l/∂θ)2](衍生物在真实θ值下计算,参见结果(2.16),第2.4节),重新安排第二个有用的一般结果:var(Y)=b00(θ)a(φ).a原则上可以是φ的任何函数,并且当与GLM一起工作时,如果φ是已知的,处理任何形式的a都是没有困难的。然而,当φ未知,事情就会变

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。