基于多因素语义相似度的主观题自动评阅方法研究

基于多因素语义相似度的主观题自动评阅方法研究

ID:21869479

大小:54.00 KB

页数:5页

时间:2018-10-25

基于多因素语义相似度的主观题自动评阅方法研究_第1页
基于多因素语义相似度的主观题自动评阅方法研究_第2页
基于多因素语义相似度的主观题自动评阅方法研究_第3页
基于多因素语义相似度的主观题自动评阅方法研究_第4页
基于多因素语义相似度的主观题自动评阅方法研究_第5页
资源描述:

《基于多因素语义相似度的主观题自动评阅方法研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、基于多因素语义相似度的主观题自动评阅方法研究  摘要:主观试题自动评阅系统涉及人工智能、模式识别以及计算机自然语言理解等复杂的系统知识,是无纸化考试中自动阅卷系统的设计难点。为此,仿照传统考试过程中人工阅卷的基本思路,把主观试题的自动评阅问题分解为知识库的构建、概念相似度的计算以及语句结构的处理等三部分,并把一种改进的多因素语义相似度算法引入到概念相似度计算,详细设计了主观试题的计算机自动评阅模型。实例运行结果表明,占总数70%的计算结果在可接受误差范围内。  关键词:主观试题;多因素;自动评阅;语义相似度  :TP399文献标志码:A:1006-8228(2012)05-0

2、9-04  Studyofautomaticmarkingmethodofsubjectivequestionsbasedonsemanticsimilarity  DangLiqiong1,2,LiuPQ为句子P,Q的相似度特征矩阵,则有:  ⑶  式中,元素Sim(pi,qj)表示词语pi和词语qj间的语义相似度,通过前文讲述的概念相似度公式计算获得。矩阵中的每一行表示句子P中的某个词语与句子Q中所有词语的语义相似度。  ⑵对矩阵中的每一行取最大值max(S(pi,qj)),即求句子P中的某个词语和句子Q中的所有词语的语义相似度的最大值,得到词语最大组合序列,则句子P中所

3、有词语与Q句子之间的语义相似度可以表示为:  ⑷  5自动评阅模型的实现  前面我们分析了主观试题的自动评阅问题的基本思路,按照一般教师的试卷评阅过程,把该过程分解为概念语义相似度的处理和句子语义相似度的处理两个流程,对每一个流程给出了解决方案。下面将在上述基础上给出主观试题计算机自动评阅模型的流程。  Step1:初始条件  已知标准答案A,将其表示为关键词序列:A=(a1,a2,,an);考生答案B,表示为关键词序列:B=(b1,b2,,bn);标准分值S0。  除了上述的条件,模型还需要如下中间条件:  ⑴考生答案中包含多少个符合条件的知识点;  ⑵考生答案知识点与标准

4、答案之间的相似度。  Step2:算法  ⑴查找匹配符合条件的知识点  提取考生答案中每一个关键词,对照先前创建好的知识库,从底层开始遍历搜索,当找到对应的概念节点时,提取该节点的高度、密度等属性信息,并保存起来,搜索完成后即可进行相似度的计算。  ⑵求解概念相似度  概念相似度的计算采用语义相似度技术。设标准答案A可以表示为知识点的一个向量组A=(a1,a2,,an),则通过概念语义相似度算法可得到任意两概念之间的相似度Sin(ai,bj),其中i=1,2,,m,j=1,2,,n。  ⑶求解语句相似度  把标准答案A与考生答案B之间的相似度表示为概念相似度矩阵,并把该矩阵处

5、理为[0,1]区间上的一个归一化相似度量。  Step3:确定最后评分结果  为了考虑不同知识点对得分的贡献值,本文把不同知识点对得分的贡献值以权值λj的形式分配到模型中。λj由出题老师在出题的时候根据不同重点的知识点直接给定,其中j=1,2,,n。通过加入权值因素,本文最终确定的主观试题自动评分结果如下:  ⑸  式中。    图2主观题自动评阅模型流程图  按照上述思路,本文确定的主观试题自动评阅模型流程如图2所示。  6实例分析  下面我们以一个实例来介绍试题的评阅过程。设试题题干为:计算机硬件由什么组成?。  考生甲的答案是:计算机硬件包括

6、处理器、总线、存储器、输入输出设备。  考生乙的答案是:计算机硬件包括CPU、总线、内存、硬盘、键盘、显示器。  考生丙的答案是:计算机硬件包括中文分词技术和语义相似度技术。  标准答案是:计算机硬件包括处理器、总线、存储器、输入输出设备。标准答案关键词序列为:计算机;硬件;处理器;总线;存储器;输入输出设备。  考生甲的答案可表示为关键词序列:计算机;硬件;处理器;总线;存储器;输入输出设备。  考生乙的答案可表示为关键词序列:计算机;硬件;CPU;总线;内存;硬盘;键盘;显示器。  考生丙的答案可表示为关键词序列:计算机;硬件;中文;分词;技术;语义;相似度。  设该题总

7、分为10,对应关键词权值序列为:0.3;0.3;0.2;0.2。本文把考题中出现的关键词如计算机;硬件按权值为0对待。最终计算结果如下:  考生甲=10*(1*0.3+1*0.3+1*0.2+1*0.2)=10。  考生乙=10*(0.919*0.3+1*0.3+0.524*0.2+0.512*0.2)=7.1729=7。  考生丙=10*(0.01*0.3+0.01*0.3+0.01*0.2+0.01*0.2)=0.01=0。  从计算结果可以看出,考生甲得满分,符合判断结果;考生乙的答案与标准答案只

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。