欢迎来到天天文库
浏览记录
ID:28025296
大小:108.00 KB
页数:3页
时间:2018-12-07
《基于多示例学习的题库重复性检测研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于多示例学习的题库重复性检测研究Subtitleasneeded(papersubtitle)AuthorsName/sper1stAffiliation(Author)lineI(ofAffiliation^dept.nameoforganizationline2:nameoforganization,acronymsacceptableline3:City,Countryline4:e-mailaddressifdesiredAuthorsName/sper2ndAffiliation(Author
2、)lineI(ofAffiliation^dept.nameoforganizationline2:nameoforganization,acronymsacceptableline3:City,Countryline4:e-mailaddressifdesired4加的/^一基于多示例学习方法对题库重复性检测算法进行了改进,其基本思想是:将包含多个子问题的试题重复性检测转化为多示例学习问题Z采用基于前缀树的高频词抽取算法抽取试题的内容特征,避免了对同义词典的依赖Z在此基础上,结合试题的元数据特征提出试题
3、相似度计算方法Z在真实题库基础上进行的实验结果显示,该方法简便可行,正确率和査全率分别达到9113%和9213%,为进一步实现题库系统的整合奠定了基础.Keywords-题库重复性检测;多示例学习;最小Hausdorff距离(keywords)1、多示例学习方法与题库重复性检测1.1多示例学习方法20世纪90年代中期,Dietterich等人在对药物活性预测问题的研究中首先提出了多示例学习的概念121.在多示例学习问题中,训练集是由一组含有概念标记的包(bag)组成,毎个包是若十没有概念标记的示例集合.如
4、果一个包中至少存在一个正例,则该包被标记为正包;否则该包为反包.学习系统通过对已标定类别的包进行学习建立模型,番望尽可能正确地预测不曾遇到过的包的概念标记.与监督学4相比,多示例学习中的示例是没有概念标记的,这与监督学习中所有示例都有概念标记不同.因此,多示例学习比监督学4更加困难.Dietterich等人发现,C4.5决策树、BP神经网络等常用的监捋学习算法很难用于解决多示例问题12'.S前已有许多示例学习算法,如:APR121,Di2vcrscDensity1,Citation2kNNr,1.1.2题
5、库重复性检测题库重复性检测问题最初于1998年由祝钧毅在W络智能题库的研究中提出[5],并成为2001年台濟地区启动的个性化学>』、测验与诊断环境项0中多专家教学策略库分析、协调与管理模块子任务的一个重要研究课题f6].现有题库系统因为没有统一的标准格式,各系统间不能实现有效共享,并严重依赖特定的学>』支持环境和教学平台,形成成体系的信息孤岛,导致低水平的重复开发;而封闭运行使得题库无法得到普及,导致题库的修订和校正缺乏数据基础.因此对现有题库资源进行整合足非常必要的,而题库重复性检测研究是进行资源整合的
6、前提条件.定义1试题相似度是指两道试题在元数据和内容上的相似程度.在I0,1j之间取一实数值,值越大表明两道试题越相似,当取值为1时,表明两道试题完全相同;值越小则表明两道试题相似度越低,当取值力0时,表明两道试题完全不同.定义2试题重复性是指若试题相似度大于相似度阈值H时,称试题存在重复性.黄国祯等提出的基于关键词和题型比对的检测算法主要步骤包括[5]:题意相似预测检查、关键词比较、冗词去除、分词处理、题型比较和结聚处珂.该算法的缺陷是没有考虑同义词的关联性,对一些存在同义词的试题在进行判断时会出现错误
7、的现象.为克服这个问题,黄国祯等提出使用词典寻找同义词和近义词,并对关键词与冗词加权进行试题的检齊与筛选[1,6].该算法相对蕋于关键词的检测算法有更高的准确率,但是存在两个缺陷:①必须事先建立学科关键词典和同义词典,.由于学科的关键词典和同义词典没有统一标准,在实际系统屮较难实施;②中学题库中许多学科的试题包含了问题,如物理实验题,算法仅对题干部分进行比对,导致试题相似度过低而产生漏判.为解决上述两点缺陷,作者提出基于多示例学习的题库重复性检测兑法,简称IRC2MI(itembankredundancy
8、checkingbasedonmulti-In-stancclearning).2、基于多示例学习的题库重复性检测题库中通常包含两类试题:包含多个子问题的试题和不包含子问题的试题.对于第2类试题,若将试题木身看作一个子问题,则成为第1类试题的特例.若将每个子问题分别看作示例,试题就是包含多个示例的包,这样试题的重复性检测问题就映射为多示例学习问题,流程图如图1所示.'^浏座申餐性淋杯法卜I前缴例分闷算比—I比对站裝处珲
9、图1基
此文档下载收益归作者所有