统计过程中遇到删失数据

统计过程中遇到删失数据

ID:20697648

大小:53.00 KB

页数:5页

时间:2018-10-15

统计过程中遇到删失数据_第1页
统计过程中遇到删失数据_第2页
统计过程中遇到删失数据_第3页
统计过程中遇到删失数据_第4页
统计过程中遇到删失数据_第5页
资源描述:

《统计过程中遇到删失数据》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、Censoreddata删失数据这两天看MPLUS统计手册,总看见censoreddata这个概念,censored的原意是“审查过的”,在网络用语上是“屏蔽的”,通俗的理解就是敏感词的意思。但什么是“审查过的数据”呢?又查了一下censoreddata,统计术语上称作“删失数据”,解释为:就是在数据收集过程中,某些在检测线下的数据被检测线的值或是0值代替了。这一解释,稍微能理解点意思,但仍是没有概念。后来,查到下面这段话,是Amos7.0可以处理censoreddata,并且给出了一个具体例子,才总算明白了啥叫censore

2、ddata。英文和翻译如下:Censoreddataoccurswhenyouknowthatameasurementexceedssomethreshold,butyoudon’tknowbyhowmuch.(Thereisalesscommonkindofcensoreddatawhereyouknowthatameasurementfallsbelowsomethreshold,butdonotknowbyhowmuch.)Asanexampleofcensoreddata,supposeyouwatchpeopleas

3、theytrytosolveaproblemandrecordhowlongeachpersontakestosolveit.Supposethatyoudon’twanttospendmorethan10minuteswaitingforapersontoreachasolution,sothatifapersonhasnotsolvedtheproblemin10minutes,youcallahaltandrecordthefactthat“timetosolve”wasgreaterthan10minutes.  If

4、fivepeoplesolvetheproblemandtwodon’t,thedatafromsevenpeoplemightlooklikethis:当你知道一个测量值超过了临界值,但又不知道具体超过了多少,就叫“删失数据”(较少出现那种低于临界值,但又不知道具体低多少的删失数据)。举个例子,假设你想要进行一个关于问题解决的研究,记录下被试进行问题解决所花的时间。假如有的被试花了10分钟还没有答完题,而你又不想继续等待,到10分钟的时候你就让被试停止答题,然后记录这名被试的答题时间为“大于10分钟”。假设7名被试中有2名没

5、答完,那么数据记录如下表: CaseTimetosolve1622394>1054697>10InAmos6.0,youcouldeithertreattheobservationforcases4and7asmissing,orsubstituteanarbitrarynumberlike10or11or12forcases4and7.Treatingcases4and7asmissinghastheeffectofbiasingthesamplebyexcludingpoorproblemsolvers.Substitut

6、inganarbitrarynumberforacensoredvalueisalsoundesirable,althoughtheexacteffectofsubstitutinganarbitrarynumberisimpossibletoknow.在Amos6.0中,你可以把被试4和被试7的数据作为缺失数据处理,也可以人为地给他们赋值为10、11或12等。作为缺失值处理的话,有可能会因为删去了一些问题解决较差者而出现样本偏差。虽然赋其他值的效果还不能确切知道,但这个做法同样也不是个好办法。InAmos7.0youcant

7、akeadvantageofalltheinformationyouhaveaboutcases4and7withoutmakingassumptionsotherthantheassumptionofnormality.在Amos7.0中,研究者就可以利用被试4和被试7的数据信息,而不用作正态假设之外的其他假设。 总结起来,所谓censoreddata,就是那些在研究中被掐头(当然也有的是去尾)的数据,知道是被掐了头,但不知道掐了多少。以前很多研究都是当缺失值处理了,但这样做容易导致样本有偏差(即差的都被去掉了,不能反映数据

8、全貌)。可见,统计软件的更新和升级是多么的重要。缺失值是指在数据采集与整理过程中丢失的内容。一般情况下,数据都是以关系型表的方式采集的,如下表是某次调查中一些受访者的基本情况见本文最后的表格。 如果在表格中,某一个数据采集时无法获得,就会出现缺失值,例如在上表中“张三”的性别

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。