欢迎来到天天文库
浏览记录
ID:27851383
大小:867.50 KB
页数:11页
时间:2018-12-06
《关于机器学习中的模型评估的性能分析及选择.doc》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、关于机器学习中的模型评估的性能分析及选择 人类在对客观世界的问题进行判断时,往往都会根据过去的经验来指导自己。例如,为什么看到微湿的路面、感到和风、看到晚霞,就认为明天是好天了呢?这是因为在我们的生活经验中已经见过了很多类似的情况,头一天观察到上述的特征后,第二天天气通常会很好,为什么色泽青绿、根蒂蜷缩、敲声浊响,就能判断出是正熟的好瓜?因为我们吃过、看到过很多西瓜,所以基于色泽、根蒂、敲声这几个特征我们就可以做出相当好的判断。可以看出,我们能做出有效的判断,是因为我们已经累计了许多经验,而通过对经验的利
2、用,就能对新的情况作出有效的决策。 那么上面对经验的利用是靠我们人类自身完成的,计算机能帮忙吗? 机器学习正是这门学科,它致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。在计算机系统中,”经验“通常以”数据“的形式存在,因此,机器学习所研究的主要内容,是关于在计算机上从数据中产生”模型“(model)的算法,即“学习算法”(learningalgorithm)。有了学习算法,我们把经验数据提供给它,它就能基于这些数据产生模型;在面对新的情况时(例如看到一个没有剖开的西瓜),模型会给我们提供相
3、应的判断(例如好瓜)。如果说计算机科学是研究关于“算法”的学问,那么类似的,可以说机器学习是研究关于“学习算法”的学问。 2模型评估与选择 2.1经验误差与过拟合 通常我们把分类错误的样本占样本总数的比例成为“错误率”(errorrate),即如果在个样本中有个样本分类错误,则错误率;相应的,称为“精度”(accuracy),即“精度=1-错误率”。更一般的,我们把学习期的实际预测输出与样本的真实输出之间的差异成为“误差”(error),学习器在训练集上的误差称为“训练误差”(traininger
4、ror)或“经验误差”(empiricalerror),在新样本上的误差称为“泛化误差”(generalizationerror)。显然,我们希望得到泛化误差最小的学习器。然而,我们事先并不知道新样本是什么样,实际能做的是努力使经验误差最小化。在很多情况下,我们可以学得一个经验误差很小、在训练集上表现很好的学习器,例如甚至对所有训练样本都分类正确,即分类错误率为零,分类精度为100%,但这是不是我们想要的学习器呢?遗憾的是,这样的学习器在多数情况下都不好。 我们实际希望的,是在新样本上能表现得很好的学习器
5、。为了达到这个目的,应该从训练样本中尽可能学出适用于所有潜在样本的“普遍规律”,这样才能在遇到新样本时做出正确的判断。然而,当学习器把训练样本学得“太好”的时候,很可能已经把训练样本自身的一些特点当做了所有潜在样本都会具有的一般性质,这样就会导致泛化能力下降。这种现象在机器学习中称为“过拟合”(overfitting)。与“过拟合”相对的是“欠拟合”(underfitting),这是指对训练样本的一般性质尚未学好。 有很多因素可能导致过拟合,其中最常见的情况是由于学习能力过于强大,以至于把训练样本所包含的
6、不太一般的特性也都学习到了,而欠拟合则通常是由于学习能力低下而造成的。欠拟合比较容易克服,例如在决策树中扩展分支、在神经网络学习中增加训练轮数等,而过拟合则很麻烦。过拟合是机器学习面临的关键障碍,各类学习算法都必然带有一些针对过拟合的措施;然而必须认识到,过拟合是无法彻底避免的,我们所能做的只是“缓解”,或者说减小其风险。关于这一点,可大致这样理解:机器学习面临的问题通常是NP难甚至更难,而有效的学习算法必然是在多项式时间内运行完成,若克彻底避免过拟合,则通过经验误差最小化就能获得最优解,这就意味着我们构造
7、性地证明了“P=NP”;因此,只要相信,过拟合就不可避免。 在现实任务中,我们往往有很多学习算法可供选择,甚至对同一个学习算法,当使用不同的参数匹配时,也会产生不同的模型。那么,我们该选用哪一个学习算法,使用哪一种配置参数呢?这就是机器学习中的“模型选择”(modelselection)问题。理想的解决方案当然是对候选模型的泛化误差进行评估,然后选择泛化误差最小的那个模型。然而如上面所讨论的,我们无法直接获得泛化误差,而训练误差又由于过拟合现象的存在而不适合作为标准,那么,在现实中如何进行模型评估与选择呢
8、? 2.2评估方法 通常,我们可以通过实验测试来对学习器的泛化误差进行评估并进而做出选择。为此,需要使用一个“测试集”(testingset)来测试学习器对新样本的判别能力,然后以测试集上的“测试误差”(testingerror)作为泛化误差的近似。通常我们假设测试样本也是从样本真实分布中独立同分布采样而得。但需要注意的是,测试集应该尽可能与训练集互斥,即测试样本尽量不在训练集中出现、未在训练过程中使用过。
此文档下载收益归作者所有