资源描述:
《卡方检验与列联表》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、生物统计学第10讲卡方检验与列联表2012.10生物统计学·卡方检验与列联表内容卡方检验(ChiSquaredTest,2Test)•2检验基本概念•适合性检验•独立性检验-列联表(ContingencyTable)-2×2列联表-R×C列联表*总体2检验*两两比较2检验•配对资料McNemar’sTestFisher确切概率检验(Fisher’sExactTest)生物统计学·卡方检验与列联表2分布设有一平均数为2μ、方差为σ的正态总体。现从此总体中独立随机抽取n个随机变量:x,x,…,x,并将变量正态标12n准化:xx
2、x12nzz,,...,z12n设n个相互独立的标准正态离差的平方和为X2:xnn2221222iXzii()2()xzni~ii11n个样本1nnSnS1122222X22(xxi)2~n1i1生物统计学·卡方检验与列联表2分布随自由度的增大,曲线由偏斜渐趋于对称。df≥30时,2分布近似正态分布生物统计学·卡方检验与列联表2检验基本概念计数资料2检验的基本思想:首先假设观察频数(O)与期望频数(E)没有差别,而2X值表示观察值与理论值的
3、偏差程度。当n较大时,X2统计量近似服从n-1个自由度的2分布。2X:观察频数与期望频数残差平方除以期望频数的和。n2()OE2iiX(1)n–观测频数单元格总个数i1Ei22X是度量实际观察次数与理论次数偏离程度的一个统计量,X越小,表明实际观察次数与理论次数越接近;2X=0,表示两者完全吻合;2X越大,表示两者相差越大。生物统计学·卡方检验与列联表2检验基本概念由(1)式计算的X2只是近似地服从连续型随机变量2分布。在对次数资料进行2检验利用连续型随机变量2分布计算概率时,常常偏低,特别是当自由度为1时偏差较大。Ya
4、tes(1934)提出了一个矫正公式,矫正后的X2值记为2Xcn(0OE.5)2X2ii(2)n-观测频数单元格总个数ci1Ei当自由度大于1时,(1)式的X2分布与连续型随机变量2分布相近似,这时可不作连续性矫正,但要求各组内的理论次数不小于5。若某组的理论次数小于5,则应把它与其相邻的一组或几组合并,直到理论次数大于5为止。生物统计学·卡方检验与列联表适合性检验适合性检验的意义判断实际观察的属性类别分配是否符合已知属性类别分配理论或学说的假设检验称为适合性检验。H:实际观察的次数与期望次数之间没有差异0H:实际观察的次数与
5、期望次数之间有差异A若X2(或X2)<2,P>0.05,表明实际观察次数与理论次数c0.05差异不显著;若2≤X2(或X2)<2,0.01<P≤0.05,表明实际观0.05c0.01察次数与理论次数差异显著;若X2(或X2)≥2,P≤0.01,表明实际观察次数与理论c0.01次数差异极显著。生物统计学·卡方检验与列联表适合性检验例1.在进行山羊群体遗传检测时,观察了260只白色羊与黑色羊杂交的子二代毛色,其中181只为白色,79只为黑色,问此毛色的比率是否符合孟德尔遗传分离定律的3∶1比例?1.零假设与备择假设H0:子二代分离现象
6、符合3:1的理论比例。HA:子二代分离现象不符合3:1的理论比例。2.选择计算公式由于本例是涉及到两组毛色(白色与黑色),属性类别分类数k=2,自由度df=k-1=2-1=1,须使用(2)式来计算X2c。生物统计学·卡方检验与列联表适合性检验3.计算理论次数根据理论比率3∶1求理论次数:白色理论次数:E=260×3/4=1951黑色理论次数:E=260×1/4=652或E=260-E=260-195=6521生物统计学·卡方检验与列联表适合性检验24.计算XC22(
7、AT
8、0.5)XCT22(
9、181195
10、0.5)(
11、796
12、5
13、0.5)195653.7395.查临界2值,作出统计推断当自由度df=1时,查得2(1)=3.84,计算的0.05X2<2c0.05(1),P>0.05,在0.05水平不能否定H0,表明实际观察次数与理论次数差异不显著,可以认为白色羊与黑色羊的比率符合孟德尔遗传分离定律3:1的理论比例。生物统计学·卡方检验与列联表适合性检验例2.在研究牛的毛色和角的有无两对相对性状分离现象时,用黑色无角牛和红色有角牛杂交,子二代出现黑色无角牛192头,黑色有角牛78头,红色无角牛72头,红色有角牛18头,共360头。试问这两对性状是否
14、符合孟德尔遗传规律中9∶3∶3∶1的遗传比例?生物统计学·卡方检验与列联表适合性检验1.零假设与备择假设H:实际观察次数之比符合9:3:3:1的理论比例。0H:实际观察次数之比不符合9:3:3