资源描述:
《潜类别分析原理及其在聚类分析中的应用.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、中国卫生统计2010年6月第27卷第3期&237&*潜类别分析原理及其在聚类分析中的应用1,21,221,21,222孟灿武俊青李玉艳周颖李娜张玉风赵瑞提要!目的探讨潜类别分析在多个二分类反应变量聚类分析中的应用。方法利用SAS软件ProcLCA模块,采用单一潜变量潜类别模型,对860名上海市公立性病门诊顾客有关性病预防知识的6个项目调查结果进行聚类分2析。结果4个潜类别的单一潜变量模型是数据拟合的理想模型(G=3852,df=36,P>005)。依据性病预防知识掌握情况,860名性病门诊顾
2、客可以聚为4个亚群,每一亚群的人数分别为375人、208人、218人和59人。结论潜类别分析适用于多个二分类反应变量的聚类分析。关键词!潜类别分析多个二分类反应变量聚类潜类别分析(latentclassanalysis,LCA)是潜变量P(X=t),t=1,2,∃,T,且存在非条件概率之和为1。AX分析的一种,是将潜变量理论同分类变量相结合的一it表示属于第t个潜类别的研究对象对A外显变量种统计分析技术,是探讨存在统计学关联的分类外显中第i个反应的条件概率,即P(A=i
3、X=t),i=1,2,变量(categorica
4、lmanifestvariables)背后的类别潜变量∃,I,依次类推。∀1,2#∀1,4#(categoricallatentvariables)的最佳技术。LCA的2.模型拟合与参数估计目的在于利用潜类别解释多个外显分类变量之间复杂LCA主要采用极大似然法(maximumlikelihood,的关联,使之能以最少的潜类别数解释外显变量之间ML)进行参数估计,其迭代过程中常用的算法有EM的关联,并使各潜类别内部的外显变量之间满足局部(expectationmaximization)、NR(Newton-Raphson)和独立的要
5、求。与因子分析(factoranalysis)相比,LCAFisher计分法等,其中以EM最为常用。∀3#2假定潜变量为分类变量而非连续变量。模型适配检验指标主要有Pearson检验和似然2LCA统计原理建立于概率的多变量分析之上。比(likelihoodratio,LR)检验。适配性检验从基准模典型的LCA假定研究者所获得的任何观测资料可以型(潜类别数T=1)开始,逐一增加潜类别数目,反复归属于并仅归属于某一潜变量X的T个潜类别中的进行假设模型与观测数据之间的适配检验,直至找到某一水平,各水平完全互斥并且相互独立。传统的理想模
6、型为止。模型适配指标主要有基于信息理论的LCA涉及两类总体参数:潜类别的概率(latentclassAIC和BIC指标,其均建立于似然比卡方检验基础之probabilities)和潜类别中外显变量的条件概率(condi上,可用于比较对参数进行不同限制的模型,两者均以tionalprobabilities)。借助两个总体参数可以计算出外越小表明适配度越好。AIC指标倾向于选择简单高效∀5#显变量之间各种反应组合的后验概率,进而可以达到模型。Lin与Dayton指出当样本量数以千计时宜采聚类的目的。用BIC指标,否则AIC更佳。与统计
7、量相关的自由度等于相关列联表中非冗余(非重复)观察计数的数量传统LCA基本原理减去需要估计的模型参数之差。∀1,4#∀1,4,6#1.LCA基本模型3聚类假设潜变量X有t(t=1,2,∃,T)个潜类别;外显在找到理想模型并对模型进行参数估计后,可以变量为A、B、C三个名义变量,且其水平数分别为I,J,利用估计所得的潜类别概率和各潜类别中各外显变量K。最基本的潜类别模型为:的条件概率计算外显变量反应每种组合分类到各潜类T别的后验概率,然后根据后验概率的大小决定该组合ABCXAXBXC!Xijk=%titjtktt=1应归入
8、的潜类别,即创造一个新的类别变量说明观察ABCX式中ijk表示一个潜类别模型的联合概率。t表示值的后验类别属性(posteriormembership),从而实现观测数据属于某一潜变量X的特定潜类别的概率,即聚类的目的。其聚类原理是Bayesian理论,聚类概率的计算公式为:ABCXXABC^ijkt*世界卫生组织资助项目(A65078)^tijk=TABCX1.复旦大学(200032)%t=1^ijkt2.上海市计划生育科学研究所(230032)通讯作者:武俊青,Emai:lwujq168@yahoo.com.cn&
9、238&ChineseJournalofHealthStatistics,Jun2010,Vo.l27,No.3按照四个潜类别的分析模型,利用EM算法对潜实例分析类别概率和潜类别下各项目条件概率的估计,结果见WHO课题(A65078)