资源描述:
《国外作文自动评分系统评述及启示_梁茂成》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第117期外语电化教学No.1172007年10月CAFLEOct.2007*版权所有文责自负*语言技术与外语教学研究国外作文自动评分系统评述及启示梁茂成,文秋芳(北京外国语大学中国外语教育研究中心,北京100089)摘要:本文依据语言测试领域的作文评分要素,对国外具有代表性的三种作文自动评分系统进行评介和比较,指出这些评分系统在训练及作文的人工评分方法和机器评分效度等方面存在的问题,并分析这些作文自动评分系统为我国自主开发作文自动评分系统所提供的借鉴作用。关键词:作文自动评分;模型;评分要素;信度;效度中图分类号:H319.3文献标识码:A文章编号:1001-5795(2007)10
2、-0018-0007作文是大规模语言考试(如TOEFL,GRE,IELTS1国外作文自动评分系统述评等)中的一种必备题型。通过作文可以检测应试者综合运用语言的能力。然而,大规模作文阅卷面临两大1.1PEG,一个重语言形式的评分系统难题:其一,阅卷需要耗费大量人力、物力等资源;其PEG于1966年由美国杜克大学(Universityof二,评判作文质量具有很强的主观性,阅卷的信度(re-Duke)的EllisPage等人开发(Daigon,1966;Page,liability)和效度(validity)不强(Johnsoneta,l1991)。1966)。PEG的设计者们认为,计算机程
3、序没有必要近几十年来,随着计算机硬件和软件性能快速提高,自理解作文内容,大规模考试中尤其如此(Shermiset然语言处理等技术获得了长足的发展,国外一批作文a.l,2001)。因此,他们在其网站上公开申明:/PEG自动评分系统相继问世,这两个长期困扰大规模作文不能理解作文的内容0(http://134.68.49.185/PEG-阅卷的难题有望得到解决。DEMO/)。本文对国外最具代表性的三种作文自动评分系统在PEG的开发者看来,作文质量的诸要素是作文进行述评。这三种系统是:PEG(ProjectEssayGrade)、的内在因素,无法直接测量,因此,最为合乎逻辑的方IEA(Inte
4、lligentEssayAssessor)和E-rater。PEG重语言法是从作文文本中提取一些能够间接反映作文质量的形式,IEA重作文内容,E-rater则既重形式又重内容。文本表层特征项(surfacefeatures)。Page首先收集了一般说来,作文评分应形式和内容并重,围绕作文的语一部分人工评分后的作文(训练集),利用当时并不发言质量、内容质量和篇章结构质量三个主要方面进行达的自然语言处理技术,从作文中提取若干个文本特(Blok&deGlopper,1992;Purves,1985;Weigle,征项(textfeatures),并在这些文本特征项与人工评分2002;梁茂成,
5、2005),然而这三种系统侧重各有不之间进行相关性分析。然后,Page选择与人工评分相同,在这三个方面的分析力度也存在很大差异。通过关的文本特征项作为自变量,把人工评分作为因变量,对比分析,笔者力图揭示这些作文自动评分系统的优进行多元回归分析,得到回归方程。回归方程为每一势与劣势,以期对开发我国学生作文自动评分系统有个变量确定了beta值,这样,在对新的作文进行评分所启示。时,PEG只需要提取这些变量,并把beta值代入回归作者简介:梁茂成:男,博士,教授。研究方向:应用语言学及计算语言学。文秋芳:女,教授。研究方向:语言学及应用语言学。收稿日期:2007-01-15基金项目:本研究得
6、到教育部人文社科项目(编号06JA740007)和中国外语教育研究中心重大研究项目的资助,在此一并致谢。#18#梁茂成,等:国外作文自动评分系统评述及启示方程之中,就可以预测出这些作文的得分。经过开发的角度看,潜伏语义分析是一种矢量空间模型(Vector者的多年努力,PEG/目前的程序中使用很多复杂的变SpaceMode,lVSM)技术,但与一般的矢量空间模型相量0(Page&Peterson,1995)。遗憾的是,对这些所谓比,这种技术能够通过减少维数(dimensionality)的方/复杂的变量0,PEG的开发者们没有详细报告,展现法(Landauer&Dumais,1997;桂
7、诗春,2003),有效地给我们的仅是一个/黑匣子0(Kaplaneta.l,1998)。过滤干扰信息,提取数据中的潜在语义结构(Chung&比较Page和Peterson(1995)和Page(1968)的变量列OpNei,l1997)。潜在语义结构可以通过一个词汇项-表,他们的确增加了几个冠以代码的新变量,其中部分文档矩阵(term-by-documentmatrix)来代表,矩阵中的变量可能的确比早期的更加复杂,但PEG的理论基础每一行代表