irt分析程序anote与multilog、parscale参数估计性能比较

irt分析程序anote与multilog、parscale参数估计性能比较

ID:14186964

大小:436.00 KB

页数:9页

时间:2018-07-26

irt分析程序anote与multilog、parscale参数估计性能比较_第1页
irt分析程序anote与multilog、parscale参数估计性能比较_第2页
irt分析程序anote与multilog、parscale参数估计性能比较_第3页
irt分析程序anote与multilog、parscale参数估计性能比较_第4页
irt分析程序anote与multilog、parscale参数估计性能比较_第5页
资源描述:

《irt分析程序anote与multilog、parscale参数估计性能比较》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、IRT分析程序ANOTE与MULTILOG、PARSCALE参数估计性能比较漆书青1戴海琦2丁树良3罗照盛4董圣鸿5周骏6(1.漆书青,教授;2.戴海琦,硕士,教授;3.丁树良,硕士,教授;4.罗照盛,博士,副教授;5.董圣鸿,硕士,讲师;6.周骏,硕士,讲师;江西师范大学教育与心理统计测量研究开发中心,江西南昌330027)摘要:考察了自主开发的“现代教育与心理测量通用分析程序(ANOTE)”的IRT参数估计质量,与MULTILOG和PARSCALE进行了比较,大量MonteCarlo模拟研究表明:对难度等级为9以下时,三程序估计精度相近;难度级别1

2、0-14时,MULTILOG不能处理,ANOTE与PARSCALE估计精度各有千秋;难度级别在15以上时,只有ANOTE才能处理当遇到同一试题两相邻难度级别很接近时,MULTlLOG估出值顺序可能逆转。关键词:参数估计;程序;RMSD;ABSE一、问题的提出国际测量学界有按项目反应理论(IRT)处理多级计分资料的分析程序,最著名和最流行的是MULTILOG和PARSCALE。它们既能处理社会心理测量与心理卫生评估中的5点、7点乃至更多级别的测评量表资料,又能处理成就测验中的多等级计分题资料(参见两程序使用手册)。但MULTILOG的最高等级数为10(即

3、9个难度级别),PARSCALE的最高等级数为15(即14个难度级别)。在我国,心理测量中等级计分资料一般多在9点以下,而成就测验中,却历来有坚持综合运用选择题与多等级计分题的良好传统。一般,选择题占分比重只是40%左右,主要部分是多级计分题(即西方所称“主观题”);而且,不少题型(如作文、分析论述、综合证明等)的满分值常在15乃至20或30分以上。因此,MULTILOG和PARSCALE在我国教育测量中的使用范围就受到很大局限。为满足我国教育与心理测量工作实际发展的需要,我们自主开发编制了“现代教育与心理测量通用分析程序(ANOTE)”。它能处理级别

4、数超过30的等级计分题资料。这对在我国推广IRT的研究与应用,当然是会有所帮助的。程序ANOTE包括参数估计、模型--资料拟合检验、等值、信息函数计算等模块。它采用Samejima双参数模型(GRM),并把0-1计分题当做等级计分题的特例来处理。项目参数估计采用MMLE/EM方法,而对能力参数采用Bayes后验期望估计(EAPE)。其具体做法是应用项目参数估计中最后一轮EM循环中得到的θ的后验分布h(θ

5、ua,ξ)的值h(yk

6、ua,ξ),这里y1……yq为积分结点,求能力参数的Bayes后验期望估计。(2)、(3)中h(yk

7、ua,)为θ的后验分布的

8、估计,yk为数值积分的求积结点,A(yk)为相应的权,而式(4)中是GRM中运算特征曲线,其中项目参数均由EM算法估出,而能力参数由积分结点yk代替。程序ANOTE中参数估计模块是整个分析系统的基础而关键性的部分,其行为表现或者说估计性能如何,理应高度关注,严格检验。假使其估出参数值正确性不高甚至完全失效,以后的等值方程求取与信息函数计算就会丧失应用的价值与意义。所以我们特地采用MonteCarlo方法,设置修复能力指标来考察程序ANOTE参数估计的正确有效性,并跟国际通行程序MULTlLOG和PARSCALE作了比较,相当系统而认真地进行了本研究。二

9、、方法与设计按MonteCarlo法检验计算机程序估计参数准确有效性应执行如下步骤:1.指定真参数值,本研究中一方面指定项目参数(即构建模拟试卷),另一方面又指定被试参数(即设置被试群体)。由于采用Samejime双参数模型,能力参数θ-N(0,1),难度参数b-N(0,1),区分度参数a的对数lna~N(0,1),N(0,1)表示标准正态分布。2.模拟生成得分反应矩阵x;一般同一批真项目参数条件下模拟多批被试,从而模拟出多个得分矩阵(如30个)。3.使用拟考察与检验的参数估计程序,本研究中即使用ANOTE,MUL-TILOG,PARSCALE三个程序

10、为表达方便,我们用An表示ANOTE程序,Mu表示MULllLOG程序,用Pα表示PARSCALE程序,下同。,根据反应矩阵x估出项目与被试参数。4.求取参数估计值与真参数值的差,设计修复能力的检验统计指标,分析与比较这些指标值,以验证有关参数估计程序的估计性能。我们设计的修复能力检验统计指标有三:一个是RMSD,一个是ABSE,另一个是MEANE。例如,对于项目区分度参数a,式中,表示由第t批被试的得分阵x估计的第j个项目的区分度,j=1,2,…,m,t=1,2,…,r.而aj表示第j个项目的区分度的真值。而MEANE(a)=(7)设置三个度量指标的

11、意义是:RMSD(a)是一个常用的表示参数估计程序对真值的修复能力的指标,其好处是在一定的条件

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。