主动式学习策略研究综述

主动式学习策略研究综述

ID:44039946

大小:33.00 KB

页数:6页

时间:2019-10-18

主动式学习策略研究综述_第1页
主动式学习策略研究综述_第2页
主动式学习策略研究综述_第3页
主动式学习策略研究综述_第4页
主动式学习策略研究综述_第5页
资源描述:

《主动式学习策略研究综述》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、主动式学习策略研究综述摘要:近年来,主动式学习策略越来越受到研究者们的关注,并且有了许多重耍的研究成果。其核心思想是通过选择有效的训练样木,使得机器学习算法能在使用更少训练数据的情况下,同样能达到良好的性能。首先对有关研究成果进行综述,然后展望未來主动式学习策略可能的应用r—J刖景。关键词:主动式学习;确定性原则;成员性原则;样木选择;支持向量机中图分类号:G42随着互联网技术的广泛应用,人们接触到的网络资讯日益膨胀,高效地处理海量信息并从屮挖掘出冇用信息的需求,显得日益迫切。研究者们提出了各种高效的机器学习算法,通过计算机进行信息处理与挖

2、掘。但是这些机器学习算法的性能,却有赖于训练数据的质量和数量。所以标注训练数据的人工成本往往就成为机器学习算法应用的瓶颈。主动式学习策略提供了一种在保证机器学习算法性能的同时,通过选择有效未标注样木,进而最小化人工标注工作量的方法。主动式学习策略大体上可以分为(1)基于确定性原则[1]⑵;(2)基于成员性原则[3][4];两类主流方法。它们己经被广泛地应用于网络上的口然语言处理任务。下面将针对这两类现有的主动式学习策略方法及其应用的研究成果进行综述;然后对主动式学习策略的应用研究进行展望。1基于确定性原则的主动式学习策略及应用应用基于确定性

3、原则的主动式学习策略进行机器学习算法训练时,首先需要选择小部分样本进行标注,这些样本被称为种了样本;然后使用这些种子样木训练出初始模型;接着使用初始模型,计算出其它未标注样本的确定性分值,再根据准则从中选择出一部分样本再进行标注;最后重新训练模型,如此反复迭代,直到结束条件满足。Schohn&Cohn[1]提岀了一种简单的主动式学习策略用于训练支持向量机,极大地提高了支持向量机的泛化能力,并在书面文档分类任务中进行了验证。研究结果发现,只用该主动式学习策略选择出来的小部分样本,训练出来的支持向量机模型,其性能强于使用整个数据库训练出来的模型

4、。总所周知,支持向量机的训练时间随着训练数据量的增加而大幅度增加,因此,该主动式学习策略能更高效地训练高性能的支持向量机模型。Tong&Koller[2]也应用了该策略进行支持向量机的训练。基于确定性原则的主动式学习策略已经应用于不同的自然语言处理任务中,比如:语音理解[5],信息抽取[6],多媒体检索[7]等oTuretal.[5]将基于确定性原则的主动式学习策略与半监督学习算法相结合,以进一步减少训练模型所需的标注样本,并在语咅理解任务中进行了验证实验。基于确定性的主动式学习策略同样也被应用于自动语音识别任务当屮2基于成员性原则的主动式

5、学习策略及应用应用基于确定性原则的主动式学习策略进行分类算法训练时[4][10],首先选取若干组不同的分类算法,使用种子样木进行初始模型的训练;然后使用初始模型对未标注样本进行类别预测,再选取那些被不同算法训练出来的模型预测类别结果差异性的样本,进行人工标注;最后,将新标注的样本放入训练数据库,重新再训练模型,如此反复迭代,直到结束条件满足。Seungetal.[11]提出了一种成员问询投票机制的主动式学习策略。Freundetal.[12]进一步分析了这一策略。他们通过从一组随机输入串中过滤信息量高的问询。研究结果显示:如果采用基于两位成

6、员的委员会投票机制算法,它能够取得正向的信息增益,那么其预测误差将随着询问数目的增加而指数式的减小,特别是用于神经网络算法中感知元的学习。Argamon-Engelson&Dagan[4]将这一策略进行了规范化,并应用于概率框架的分类算法训练当中。进一步他们引入了投票爛值用于量化委员会成员之间的分歧性。最后在词性标注任务中进行了实验验证。该策略的一个不足之处就是为了训练多种不同的分类器,需要将样本的特征集拆分为若干部分。这样,可能使得原本可以用于训练出一个高性能分类器的样本,最后只训练出若干个低性能的分类器。为了克服这一不足,Abe&Mam

7、itsuka[13]提出了新的基于问询投票机制的策略,即:将问询投票与Boosting和封装机制相结合。3总结与展望本文对近年来主动式学习策略应用领域所取得的研究成果进行了全面的综述。基于主动式学习策略的机器学习算法训练,能够帮助人们尽可能少的标注训练数据,更快速地训练出高性能的机器学习模型。在未來几年中,它将成为木领域研究热点和前沿。如何将该策略应用到更多不同的机器学习算法训练当中,尤其是在大数据背景下,如何克服模型训练效率低下的瓶颈等都将成为研究者关注的主要方向。参考文献:[1]G.SchohnandD.Cohn,Lessismore:

8、Activelearningwithsupportvectormachines[C]・inMachineLeaimingTnLernalionalWorkshopTIIENCon

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。