标准参照测验相关理论和评价指标的综述

标准参照测验相关理论和评价指标的综述

ID:21788171

大小:24.50 KB

页数:5页

时间:2018-10-24

标准参照测验相关理论和评价指标的综述_第1页
标准参照测验相关理论和评价指标的综述_第2页
标准参照测验相关理论和评价指标的综述_第3页
标准参照测验相关理论和评价指标的综述_第4页
标准参照测验相关理论和评价指标的综述_第5页
资源描述:

《标准参照测验相关理论和评价指标的综述》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、标准参照测验相关理论和评价指标的综述  摘要本文从国内近年来对于标准参照测验的一系列探索出发,对国内学者对于标准参照测验的相关理论和评价指标做的研究和陈述主要包括标准参照测验的评价指标如信效度,测验长度以及分数体系做了一个综合述评。  关键词标准参照测验评价指标分数体系  中图分类号:O212文献标识码:A  1标准参照测验的定义与作用  1.1标准参照测验的定义  匹斯堡大学的Glaser首次提出标准参照测验,将测验分成标准参照测验和常模参照测验。后来许多学者将内容参照、领域参照等解释为标准参照。  标准参照测验又称准则参照测验。是一种精心编制的,在一定

2、的行为领域上按照具体标准水平对测验结果作出直接解释的测验。是一种与以经典测验理论为基础的与常模参照测验相对的测验类型。  1.2标准参照测验的作用  了解个体在所规定的测量内容上的行为水平,其出发点是个体本身的绝对水平,而不是个体间的差异。  2标准参照测验与常模参照测验的不同  常模参照测验的分数反应了一个人在所属群体中的相对位置,常模代表了某一群体的真正水平,而标准参照测验的分数标志一个人能力或知识的绝对水平,不与其他人的分数比较,标准是希望达到的目标,对个体作出是否达标或达到什么程度的判断,有很大的人为性。  3标准参照测验的评价指标  3.1标准参

3、照测验的信度估计  标准参照测验的信度估计方法很多,如克龙巴赫系数或CTT中的其它信度指标。标准参照测验一定程度上有别于常模参照测验,许多的学者对其信度估计做了很多的阐述和研究。  香港中文大学的杨志明教授用概化理论中的可靠性指数和()公式,分别针对交叉设计和嵌套设计,就标准参照性测验的整体信度和等级分数线决策信度的估计问题进行了探讨。用数据演示的方法比较了交叉设计与嵌套设计在估计标准参照性测验整体信度方面的差异,展示了等级决策分数线决策信度的估计方法。  安徽师大的赵必华教授在《标准参照测验信度的估计方法及其验证》中列举了四种标准参照测验信度的估计方法,

4、分别是斯旺明内森方法;惠恩方法;萨伯考维克方法;玛希尔方法。  3.2标准参照测验的效度估计  对标准参照测验的效度估计主要是内容效度的估计,主要从以下两方面入手:一是测题的正确性即指测题正确地反映测量目标所欲测量的知识、技能的程度。检验主要包括:测题的技术质量和测题与测量目标之间的一致性程度;二是测题的代表性,即要求组成标准参照测验的测题必须对测验领域总体有一定的代表性,从而使测验具有较高的内容效度。为了保证测题的代表性,标准参照测验编制中往往需要制订双向细目表;同时人们也提出了利用“重复实验”方法。  3.3标准参照测验的长度  在标准参照测验中,测验

5、长度的决策不仅要结合特定的测验分界分数,而且要以降低错误肯定和错误拒绝的误差概率为原则。因此,标准参照测验长度的确定不是以常模参照测验中的斯皮尔曼布朗信度估计理论为基础,而是采用米尔曼的二项式概率模型法、威尔克森的不肯定区域法以及项目反应理论下的信息函数值法。  这些研究方法进行长度决策时的基本宗旨是:在符合测量误差标准要求的前提下,寻求最符合经济原则的测验长度和合格分数的优化组合方式,将测验对被试掌握程度的错误分类降低到最低限度。  针对标准参照测验长度的研究方法使用范围最广、理论基础最成熟是米尔曼的二项式概率模型、威尔克斯的不肯定区域模型和项目反应理论

6、的拟合估计法。每种方法都有各自的适用条件,在具体情境中可以根据情况进行方法选择。  4标准参照测验的分数体系  标准参照测验分数的报告和解释还存在误区,许多考试仍沿用经典测验理论中的常模参照方法来对其分数报告和解释。目前国内有学者从国内外的重大考试入手,通过探讨分数体系的共同点以找到适合于标准参照测验的分数体系,为以后的一些标准参照测验的分数体系提供参考。  国内外有许多重大教育考试在使用标准参照测验,每套测验都会有一个相对成熟的分数体系。国内常见的标准参照测验有大学英语四六级考试,汉语水平考试HSK等;国外的比如美国研究生入学考试GRE,美国大学水平考试

7、CLEP等等。  尽管上述一些国内外重大考试采用的分数体系比较完善。但目前使用的一些标准参照测验的分数体系仍存在大量的问题。首先分数的报告和解释过分依赖于标准样本的分布;其次不同的等值方法和等值设计将造成了不同的等值误差,且差异较大。但是样本容量限制等现实情况使得许多测验不得不采用一些误差较大的等值方案;再次,样本选择代表性受到了一定的限制,另外由各专家评定的标准试卷同样无法避免其主观性;最后,尽管采用了专家评定方法和样本分布共同来确定分界线,但是具体的分数线的确定因人的能力是连续变量而仍具有一定的主观性。  5小结  随着教育水平的不断提高,标准参照测验

8、在教育考试以及其他考试方面的重要性也逐渐凸显,关于测验的编制和评估

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。