资源描述:
《广义可加模型及其SAS程序实现》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、·72·中国卫生统计2006年2月第23卷第1期·计算机应用·广义可加模型及其SAS程序实现12冯国双陈景武回归分析中,非参数回归以其适用性强,对模型假式中,si(Xi),i=1,2,⋯,称为光滑函数,它满足定要求不严等优点,扩展了参数回归的应用范围,增强Esi(Xi)=0。这一函数并不给定一个参数形式,而是〔1〕〔2〕了模型的适应性。但非参数回归也有其局限性,以非参数形式来估计。当模型中的解释变量个数较多而样本含量并不是很大广义可加模型与广义线性模型相似,它包括一个时,非参数回归拟合的效果并不尽如人意,容易引起方随机成分(randomcompon
2、ent),一个可加成分(additive差的急剧增大。这种由于维度的增加而使方差急剧扩component),以及一个联系于这两个成分的连接函数大的问题通常被称为“维度的孽根(curseofdimension2(linkfunction)。ality)”。而且非参数回归多是建立在核估计和光滑样反应变量Y,即随机成分,服从下面的指数分布条基础上的,其解释性也是一个问题。为了解决这些族:问题,Stone(1985)提出了可加模型(additivemodels),yθ-b(θ)fY(y;θ;<)=exp+c(y,<),这种模型对多变量回归方程估计一个可加近
3、似值。可a(<)加近似值有两个优点:(1)由于每一个个体的可加项是其中,θ被称为自然参数,<被称为尺度参数。p以单变量平滑估计的,因而“维度的孽根”可以避免;可加成分为η=s0+∑si(Xi),i=1(2)个体项的估计解释了应变量如何随着自变量的变连接函数g(·)将随机成分与可加成分联系成g化而变化的。为了使可加模型扩展到更广范围的分布(μ)=η。例如,普通的可加模型中,η=g(μ)=μ,是族,Hastie和Tibshirani(1990)又提出了广义可加模型恒等函数;而二分类数据的非参数logit模型中,η=g(generalizedadditi
4、vemodels,GAM)。它使反应变量的μ均值通过一个非线性连接函数而依赖于可加解释变(μ)=log1-μ,为logit函数。量,同时还允许响应概率分布为指数分布族中的任意广义可加模型和广义线性模型可用于相似的情一员。许多广泛应用的统计模型均属于广义可加模形,但它们的目的不同。广义线性模型强调模型中参型,包括带正态误差的经典线性模型、二分类数据的非数的估计和推断,而广义可加模型更加注重对数据进参数logit模型、Poisson数据的非参数对数线性模型行非参数性的探索。当研究目的是想对数据进行探索等。性分析或显示反应变量和解释变量之间关系时,用广义
5、可加模型更为合适。可加模型和广义可加模型广义可加模型的SAS实现设Y为反应变量,X1,X2,X3,⋯,XP为解释变量,经典的线性回归模型一般可表示为如下形式:广义可加模型在SAS中可通过GAM程序来实E(Y
6、X1,X2,⋯,XP)=β0+β1X1+β2X2+⋯+现〔3〕,在SAS811版本中GAM程序是作为一个试验βPXP性程序嵌入的,SAS812中已经成为一个正式程序。其中,β0,β1,β2,⋯,βp的参数估计一般通过最小GAM程序建立在非参数回归和平滑技术的基础上,二乘法来获得。提供了一批功能强大的数据分析工具。当要采用非参可加模型推广了线性模
7、型,其形式为:数方法来分析一个反应变量与多个解释变量之间关系E(Y
8、X1,X2,⋯,XP)=s0+s1(X1)+s2(X2)+或反应变量不服从正态分布时,便可以采用GAM程⋯+sP(XP)序来实现。GAM程序的主要语句如下:11北京大学临床肿瘤学院流行病研究室(100036)PROCGAM;参数模型、半参数模型、非参数模型、可加模型等。表BYvariables;1表明了对于反应变量Y和解释变量x、x1、
10、x2如何IDvariables;指定不同的模型。表1拟合GAM模型的不同语句模型类型语句数学形式参数(Parametric