资源描述:
《列联表分析附录》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、1.独立性检验假设有个随机试验的结果按照两个变量A和B分类,A取值为A1,A2,…,Ar,B取值为B1,B2,…,Bs,则形成了一张的列联表,称为二维列联表。其中表示A取Ai及B取Bj的频数,,其中:表示各行的频数之和表示各列的频数之和令(),和分别表示各行和各列的边缘概率,对于二维列联表,如果变量A和变量B是独立的,则A和B的联合概率应该等于A和B边缘概率的乘积。因而有如下检验:在H0成立的条件下,二维列联表中的期望频数为:则如果期望频数,则统计量近似服从自由度为的卡方分布。如果Pearson值过大,或p值过小,则拒绝H0,认为变量A
2、和变量B存在某种关联,即不是独立的;否则不能拒绝H0,认为是独立的。如果期望,则需要将其合并使得期望频数,否则容易夸大卡方统计量值,导致拒绝原假设的结论。关于独立性检验还可以采用另一个基于多项分布的似然函数的检验统计量,称为似然比检验统计量。该统计量采用一般的最大似然函数与零假设下的最大似然比,然后取对数的2倍:T=2i,jni,jln(nijeij)在零假设下,T有自由度为r-1(c-1)的卡方分布。2.齐性检验与独立性检验类似的是齐性检验。实际问题中,假设有n组从不同来源得到的数据,要判定这些数据的来源是否相同(相同的分布),统计
3、上我们可以将这些问题表述为:假定有k组样本,分别取自k个总体,要检验这k个总体的分布是否相同。这样的假设检验问题称为“齐次性检验”。对一般的二维列联表,可以提出假设:()在H0成立的条件下,这些概率与j无关,因此的期望值(理论频数)为,,因此期望值,则检验统计量为:与独立性检验一样,如果,则统计量近似服从自由度为的卡方分布。如果Pearson值过大,或p值过小,则拒绝H0,;否则不能拒绝H0。3.Fisher检验对于观察值数目不大的低维列联表的齐性和独立性问题还可以不采用近视的卡方统计量来检验,而采用Fisher精确检验。若样本大小n不
4、很大,则基于渐近分布的卡方检验方法就不适用。对此,针对四格表情形,R.A.费希尔(1935)提出了一种适用于所有n的精确检验法。其思想是在固定各边缘和的条件下,根据超几何分布(见概率分布),可以计算观测频数出现任意一种特定排列的条件概率。把实际出现的观测频数排列,以及比它呈现更多关联迹象的所有可能排列的条件概率都算出来并相加,若所得结果小于给定的显著性水平,则判定所考虑的两个属性存在关联,从而拒绝h0。B1B2总和A1n11n12n1.A2n21n22n2.总和n.1n.2n在这里,假定边际频数以及总数n都是固定的。在A和B独立或齐性的
5、假设下,在给定边际频率时。这个具体的列联表的条件概率只依赖四个频数中的任意一个。在零假设下,该概率满足超几何分布:Pnij=n1.n11n2。n21n。。n。1=n1.n11n2。n21n。。n。1=n.1!n1.!n.2!n2.!n..!n11!n12!n21!n22!如果零假设正确,任何一个与nij实现值有关的尾概率不应该太小,否则都可能拒绝零假设。4.超几何分布产品抽样检查中经常遇到一类实际问题,假定在N件产品中有M件不合格品,即不合格率p=M/N。在产品中随机抽n件做检查,发现k件不合格品的概率为P(X=k)=C(M,k)*C(
6、N-M,n-k)/C(N,n),k=0,1,2,...,min{n,M}。通常称这个随机变量X服从超几何分布。这种抽样检查方法等于无放回抽样。数学上不难证明,N趋近无穷,limC(k,M)*C(n-k,N-M)/C(M,N)=B(n,p)(二项分布)因此,在实际应用时,只要N>=10n,可用二项分布近似描述不合格品个数。也就是已经知道某个事件的发生概率,判断从中取出一个小样本,该事件以某一个机率出现的概率问题。例子:假设细胞中有某种现象以90%的几率在发生着,被我们的三次实验抓到三次的几率是多大呢?不过可惜的是我们往往不能知道某个事件发
7、生的先验的概率。不过至少可以拿来做假设检验。超几何分布是统计学上一种离散概率分布。它描述了由有限个物件中抽出n个物件,成功抽出指定种类的物件的次数(不归还)。在产品质量的不放回抽检中,若N件产品中有M件次品,抽检n件时所得次品数X=k则P(X=k)=C(Mk)·C(N-Mn-k)/C(Nn),C(ab)为古典概型的组合形式,a为下限,b为上限此时我们称随机变量X服从超几何分布(hypergeometricdistribution)1)超几何分布的模型是不放回抽样2)超几何分布中的参数是M,N,n上述超几何分布记作X~H(n,M,N)。5
8、.多项分布多项式分布(MultinomialDistribution)是二项式分布的推广。把二项分布公式再推广,就得到了多项分布(在一般概率书中很少介绍它,但是热力学中涉及到它)。二项分布的典型例子是扔硬币