欢迎来到天天文库
浏览记录
ID:19477698
大小:148.00 KB
页数:10页
时间:2018-10-02
《测验效度概念的新发展doc - 北京语言大学教育测量研究所》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、测验效度概念的新发展谢小庆(北京语言大学)摘要:在1985年《教育与心理测验标准》(第5版)出版之前,效度研究的核心概念是“效标(criterion)”。效度研究被视为一种用“效标”对测验的效度进行证明(verify)的过程,效度研究被视为一种对测验分数做出有效(valid)解释的过程。在1985年以后,效度研究的核心概念是“证据(evidence)”。效度研究被视为一种通过积累证据对测验的效度进行支持(support)的过程,效度研究被视为一种对测验分数做出合理(reasonable)解释的过程。关于效度的这种理解,突出地体现在1999年出版的《教育与心理测验标准》(第6版)中。美国教
2、育协会和美国国家教育测量学会共同组织编写的《教育测量》在业内被称为是“测量领域的《圣经》”。在2006年《教育测量》(第4版)出版以后,效度研究的核心概念变为“理由(warrant)”。效度研究被视为一种通过构造“理由系统”和“理由网络”对效度所进行的“论证(argument)”,效度研究被视为一种对测验分数做出可接受的(plausible)解释的过程。本文结合作者在考试实践中的一些体会,介绍了效度概念的新发展。关键词:测验考试效度考试是一把尺子,被用来测量应考者的能力。这把尺子本身可能存在质量问题。只有达到质量标准的考试才能被应用。效度是刻画考试质量的最重要指标,它反映了考试在多大程度
3、上实现了考试目的。在美国教育研究协会(AmericanEducationalResearchAssociation,AERA)、美国心理学会(AmericanPsychologicalAssociation,APA)和美国国家教育测量学会(NationalCouncilonMeasurementinEducation,NCME)共同制定的《教育与心理测验标准(StandardsforEducationalandPsychologicalTesting)》[1][2]和美国教育协会(AmericanCouncilonEducation)和美国国家教育测量学会共同组织编写的、被人们称为“教育
4、测量领域的《圣经》”的《教育测量(EducationalMeasurement)》[3][4]中,首先讨论的都是考试的效度问题。一、效度概念的历史演变考试是一把尺子。这把尺子的准确性,需要靠另一把尺子来检验。这“另一把尺子”,就是“效标(criterion)”,或“标准”。在招生名额有限的情况下,当我们准备将一项测验(如手指速度测验或注意力测验)作为“打字员培训班”的招生考试时,我们可以对这项测验的有效性进行检验。我们可以计算经过一个月培训后的学员的打字速度与测验分数之间的相关。如果存在显著的相关,我们可以说这项测验是有效的。这时,经过一个月培训后的打字速度就是“效标”。早期的效度研究是
5、围绕“效标”10展开的。例如,作为美国高考的《学术评估测验(SAT)》的主要效标是大学第一年各科考试成绩的平均,英语TOEFL考试的效标是英语教师对学生英语水平的评价,汉语水平考试(HSK)的效标是汉语教师对学生汉语水平的评价。在教育部考试中心的资助下,笔者曾经进行过一次关于语文高考的效度研究,采用了4种效标:高中成绩,高中任课教师对学生语文水平的评价,高中同学之间的互相评价,大学第一学年的各科成绩平均。[8]受国家公务员局委托,笔者曾经对若干年的中央机关公务员录用考试进行效度研究。研究所采用的最主要效标是考生的学历,划分为大专、本科、硕士、博士等几个等级。大学中由任课教师命题的、监管并
6、不严格的课程考试成绩真的比顶尖专家命题的、严格监管的高考成绩更可信吗?真的可以被作为效标去检验高考成绩吗?如果以“学历”作为效标来检验公务员录用考试的成绩,高学历就一定是高能力吗?为什么不直接根据学历来录用公务员呢?“效标”被用来对考试的质量进行检验。在许多情况下,这些效标很容易受到质疑。心理测量学家们发现,“效标”只能在很有限的领域内为测验提供有说服力的效度检验,更多的情况下则是捉襟见肘,难以自圆其说。于是,他们尝试着为“效标”配备了两个助手,一个的名字叫“内容(content)”,另一个的名字叫“构念(construct)”。在可疑的“效标”显然靠不住的时候,心理测量学家说,测验可以
7、是特定知识内容总体的一个代表性样本。只要我能够证明我编制的测验是特定知识内容总体的具有代表性的样本,我就可以说我的测验是有效的,说它具有“内容效度(contentvalidity)”。例如,高考语文考试可以是中学语文教学内容总体的一个代表性样本。“内容效度”面临双重挑战。首先,我需要证明我编的高考语文试卷是中学语文教学内容总体的一个代表性样本。这并不容易。“中学语文教学内容总体”本身就是一个充满争议的话题。关于什么是“语文”,194
此文档下载收益归作者所有