资源描述:
《在抽样调查中对无回答偏差度量的问题研究new》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、南京经济学院学报1997年第1期(总第80期)在抽样调查中对无回答偏差度量的问题研究许承明在抽样调查中无回答是指被抽出的样本中的一些单位未能计量的情形。例如,在通过家庭访问调查中,由于被调查者家中无人,或者虽然家中有人但他们拒绝回答。无回答现象在邮寄问卷调查和电话调查中也是非常普遍的。在抽样调查中由于部分样本单位无回答不仅使最终可以用来推算总体的样本单位少于原先确定的样本容量,从而扩大了估计量的方差,而且由于回答样本单位与无回答样本单位在指标结构上的差异,使依据于回答样本单位所给出的估计量存在系统偏差。所以如何对无回答偏差进行计算及其调整一直是抽样调查中的一个重要问题,从最近的国
2、内外有关文献来看,对无回答的分析,通常采用两类统计模型,一种称固定回答模型(FixedResponseModel),另一称随机回答模型(RandomResponseModel)。在固定回答模型中假定抽样总体可划分为两层,第一层称回答层,它是由所有这样的单位组成:如果这些单位被抽到样本中的话,就会得到它们的计量值:第二层称为无回答层,它是由无法得到其计量值的单位所组成。在随机回答模型中假定抽样总体中的每一个单位都有一个回答概率,它代表:如果这个单位被抽到样本中的话,能得到该单位计量值的概率。在随机回答模型中,各个单位的回答概率未必相等。下面我们分别研究每种回答模型下的偏差度量问题。
3、一、固定回答模型的无回答偏差设总体的单位数为N,其中回答层的单位数为N1,无回答层的单位数为N2,并定义W1=N1öN为总体的回答率,W2=N2öN为总体的无回答率,现从总体中抽取一个容量为n的简lvv单随机样本,并设y1是调查结束后所得样本数据的均值,Y1和Y2分别是回答层和无回答层的均值,于是vvv总体均值:Y=W1Y1+W2Y2样本均值中的偏差总量是vvvvvvDu=E(yl1)-Y=Y1-(W1Y1+W2Y2)=W2(Y1-Y2)(1)无回答除了造成均值偏差,它也会造成方差估计的偏差。设Y1i(i=1,2,⋯N1)表示回答层22的单位,Y2i(i=1,2,⋯N2)表示无回
4、答层的单位,R1和R2分别为第一层和第二层的方差。于是总体的方差可表示为:NN1122v2v2R=[2(Y1i-Y)+2(Y2i-Y)]Ni=1i=122vv2=W1R1+W2R2+W1W2(Y1-Y2)2设S1是调查结束后得到的样本数据方差,于是样本方差中的偏差总量是22222vv2DR=E(S1)-R=R1-[W1R1+W2R2+W1W2(Y1-Y2)]22vv2=W2[(R1-R2)-W1(Y1-Y2)](2)v2由于样本未提供Y2和R2的资料,所以无回答所造成的均值和方差的偏差总量是无法确定·73·©1994-2010ChinaAcademicJournalElectro
5、nicPublishingHouse.Allrightsreserved.http://www.cnki.net的。如果可以假定,回答层与无回答层的指标值相同,那么无回答既不会造成均值估计的偏差,也不会造成方差估计的偏差,但在实际调查中这两次的指示一般并不相同。例如,用邮寄方式对经济企业进行抽样调查时,回答者多半是较大的企业,其均值和单位间的方差比不回答者要大,若我们仅根据回答单位的资料对总体进行估计就必定会产生偏差。为了估计Du和DR,2我们需要通过其它途径获得yl2和R2的资料。例如,对样中的无回答单位可以采取多次访问的办法获得样本中无回答层的数据。对于目的是求比例的抽样,则
6、相应于(1)和(2)的公式可分别表示为Dp=W2(P1-P2)(3)2DR=W2[P1(1-P1)-P2(1-P2)-W1(P1-P2)](4)二、对无回答层的分解对无回答层中的单位,可以根据其无回答的原因将其分解为若干个无回答层,且使分解层之间互不重叠。例如,在家庭式访问调查中无回答的原因可能是家中无人,也可能是家中有人但拒绝回答。因此,我们可以将家中无人视为一个无回答层,而家庭有人但拒绝回答视为另一个无回答层。一般地,假定无回答可以归结为K个不同的原因,则可将无回答单位总体分为K层,设Nzi(i=1,2,⋯K)为第i个无回答层的单位数,于是kvv2N2iY2iN2=2N2i,
7、Y2=i=1N2以及kvN2ivvDu=E(yl1)-Y=2(Y1-Y2i)(5)i=1Nv其中Y2i是第i个无回答层中的均值。N2ivv公式(5)将样本中均值偏差总量分解为K个部分之和,并且任意一项(Y1-Yzi)表N示第i种无回答原因所造成的偏差。通过这种分解的办法我们可以清楚地看到各种无回答原因对抽样调查结果的影响程度,以及对这些偏差进行调整所应采取的对策。三、随机回答模型的无回答偏差与固定回答模型相比,随机回答模型作为分析无回答影响的模型可能更为合理,这是因为总体中的任何