电子阅卷员在美国的发展及在我国应用的探讨

电子阅卷员在美国的发展及在我国应用的探讨

ID:35371813

大小:74.04 KB

页数:10页

时间:2019-03-24

电子阅卷员在美国的发展及在我国应用的探讨_第1页
电子阅卷员在美国的发展及在我国应用的探讨_第2页
电子阅卷员在美国的发展及在我国应用的探讨_第3页
电子阅卷员在美国的发展及在我国应用的探讨_第4页
电子阅卷员在美国的发展及在我国应用的探讨_第5页
资源描述:

《电子阅卷员在美国的发展及在我国应用的探讨》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、电子阅卷员在美国的发展及在我国应用的探讨冯鑫冯卉(作者简介:冯鑫,男,I専丄研究主,哥伦比亚人学统计学系,10025;冯卉,女,硕丄,讲师,天津人学外语学院,300071)摘要:本文以e-rater为例对电子阅卷员在美国的发展进行了详细的介绍,其中涉及发展简史、设计原理、语言学变量的获取、统计建模、结果分析、未来研究方向等多方面的问题;并从英语考试、中文考试、技术要求等诸多角度对电子阅卷员在我国应用的可行性与艰巨性进行了探讨。关键词:电子阅卷员;作文考试;计算语言学;吻合率一、序论对写作的评佔在考试以及教育中一直处于十分重耍的地位。早在二千一百年前,中国就将作文考试用于

2、选拔政府官员。到19世纪,作文考试已经在欧洲和美国的考试中广为应用。20世纪初,电了读卡机的发明带來了考试界的革命,它大大促进了选择题(multiplechoice)的发展与应用,并使客观、迅速的评分和大批量的标准化测试成为町能。虽然作文考试的地位曾被动摇,但人们从没有忽视过作文考试的重要性。现在,人们日益强调基于表现(performance-based)的考试,这就要求在标准化测试屮加入尽町能多的主观性题口,如写作。研究表明,在选择题考试屮添加一道(或以上)的写作题目,不仅能够提高该考试的有效性(validity),还可以减小性别造成的差异(Willingham&Co

3、le,1997;Heck&Crislip,2001)o与作文考试相伴的是作文阅卷和评估。众所周知,这并不是一件容易的事。作文阅卷遇到的第一个问题就是工作量巨大。仅在2001年这一年中,美国教育考试服务处(EducationalTestingService,ETS)人工评阅了超过一千万份考试作文。在中国,这个数字会以亿为单位。其次,人丄阅卷员的准确性和客观性也受到质疑。研究显示,人工阅卷员彼此Z间的吻合率(agreementrate)并不高;一般来讲,相关系数大约为0.50至lj0.60(Page,1996)«当耍求阅卷员在相隔足够长的时间后对同一篇作文第二次打分时,阅卷

4、员的自我吻合率(self-agreement)大约为0.70(Page,1995)0当然,多个有经验的阅卷员共同阅卷时,最终综合结果的可靠性(reliability)会大大提鬲,但H前尚无考试机构能负担两个以上的阅卷员进行常规性阅卷。再次,人工阅卷员的评分尚不能满足对考分使用的两大需求。从考试者个人角度讲,人工阅卷员只给考试者一个分数,而并无相应的反馈与诊断性信息;考生无从知道自己写作的可取之处与薄弱环节,因此也不能进行有针对性的学习。从整体考虑,人工阅卷的地域性和流动性使跨地区、跨年度的比较变得十分困难。以屮国的高考为例,由于是以省为单位纽织阅卷,阅卷尺度不尽相同,我

5、们就不能将各省的作文分直接比较;每年的阅卷员在人员上不同,对同一地区的不同年份的成绩也无法进行有效比较,因此高考就不能充分、及时、有效地行使中学教育指挥棒的职能。在人力资源L1益昂贵的同时,计算机软破件的成木大大降低。当今,计算机广泛地用于家庭和学校;文字处理、语法检测及语言学的软件发展十分迅速。研究者想到了尝试用计算机辅助作文阅卷,从而降低成木并提高阅卷质量。早在20世纪60年代,受当时自然语言处理技术的启发,美国康涅狄格州的一些研究者开始考虑利用计算机阅卷的町行性(Kuno.1964:Stoneetal,1966)。目前,在美国具有相当影响力的三个电子阅卷员是:Pr

6、ojectEssayGrade,其主要发明者为公爵大学(DukeUniversity)的EllisPage;科罗拉多大学(UniversityofColorado)的ThomasLandauer及其学生研究发明的IntelligentEssayAssessor以及美国教育考试服务处(ETS)的JillBurstein,MartinChodorow等人研制的E-ratero本文将着重介绍E-rater。二、E~rater简介1997年秋,E-rater在GraduateManagementAdmissionTest(GMAT)的写作考试中进行检测。1998年,E-rate

7、r作为第二阅卷员与另一位人工阅卷员一起对GMAT的写作部分打分。当年美国教育考试服务处的GMAT开支削减近两百万美元。E-rater如何对作文准确合理地打分呢?一个有效的方法就是依照评分标准来模拟人工阅卷员对作文的评判,这也是E-rater的一个重要的设计思想与出发点。GMAT作文的满分为6分,评分标准耍求,一篇优秀的作文(5或6分)要紧扣文题,论证有组织、有力度,修辞和句法具有多样性。随着上述三方面要索的削弱,作文分也相应降低。有关详细的GMAT作文评分标准请访问http://www.gnmt.org.E-rater就是利用评分标准屮的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。