欢迎来到天天文库
浏览记录
ID:12992120
大小:296.50 KB
页数:19页
时间:2018-07-20
《tom的机器学习方法 ml-chap05》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第5章 评估假设对假设的精度进行经验的评估是机器学习中的基本问题。本章介绍了用统计方法估计假设精度,主要为解决以下三个问题:首先,已知一个假设在有限数据样本上观察到的精度,怎样估计它在其他实例上的精度。其次,如果一个假设在某些数据样本上好于另一个,那么一般情况下是否该假设更准确。第三,当数据有限时,怎样高效地利用这些数据,通过它们既能学习到假设,还能估计其精度?由于有限的数据样本可能不代表数据的一般分布,所以从这些数据上估计出的假设精度可能有误差。统计的方法,结合有关数据基准分布的假定,使我们可以用有限数据样本上的观察精度来逼近整个数
2、据分布上的真实精度。5.1动机多数情况下,对学习到的假设进行尽可能准确的性能评估十分重要。原因之一很简单,是为了知道是否可以使用该假设。例如,从一个长度有限的数据库中学习,以了解不同医疗手段的效果,就有必要尽可能准确地知道学习结果的正确性。另一原因在于,对假设的评估是许多学习方法的重要组成部分。例如在决策树学习中,为避免过度拟合问题必须进行后修剪,这时我们必须评估每一步修剪对树的精度产生的影响。因此,有必要了解已修剪和未修剪树的精度估计中固有的可能误差。当数据十分充足时,假设精度的估计相对容易。然而当给定的数据集非常有限时,要学习一个
3、概念并估计其将来的精度,存在两个很关键的困难:l估计的偏差(Biasintheestimate)。首先,学习到的概念在训练样例上的观察精度通常不能很好地用于估计在将来样例上的精度。因为假设是从这些样例中得出的,因此对将来样例的精度估计通常偏于乐观。尤其在学习器采用了很大的假设空间,并过度拟合训练样例时,这一情况更可能出现。要对将来的精度进行无偏估计,典型的方法是选择与训练样例和假设无关的检验样例,在这个样例集合上检验假设。l估计的方差(Varianceintheestimate)。其次,即使假设精度在独立的无偏检验样例上测量,得到的精
4、度仍可能与真实精度不同,这取决于特定检验样例集合的组成。检验样例越少,产生的方差越大。本章讨论了对学到的假设的评估、对两个假设精度的比较、和有限数据样本情况下两个学习算法精度的比较。其中的讨论多数集中在统计和采样理论的基本定律,而本章假定读者在统计学方面没有背景知识。假设的统计检验需要较多的理论知识。本章提供了介绍性的综述,集中讨论那些与假设的学习、评估和比较相关的问题。5.2估计假设精度在评估一个假设时,我们一般更感兴趣于估计其对未来实例的分类精度。同时,也需要知道这一精度估计中的可能的误差(即与此估计相联系的误差门限)。本章使用的
5、学习问题的框架如下。有一所有可能实例的空间X(如所有人的集合),其上定义了多个目标函数(如计划本年购买滑雪板者)。我们假定X中不同实例具有不同的出现频率,对此,一种合适的建模方式是,假定存在一未知的概率分布D,它定义了X中每一实例出现的概率(如19岁的人的概率比109岁的人概率高)。注意D并没有说明x是一正例还是一反例,只确定了其出现概率。学习任务是在假设空间H上学习一个目标概念(即目标函数)f。目标函数f的训练样例由施教者提供给学习器:每一个实例按照分布D被独立地抽取,然后它连同其正确的目标值f(x)被提供给学习器。为说明这一点,考
6、虑目标函数“计划本年购买滑雪板者”,可以调查去滑雪板商店的顾客,通过此调查来收集训练样例。在这里实例空间X为所有人组成的集合,每个实例可由人的各种属性描述,如年龄、职业、每年滑雪次数等。分布情况D指定了在滑雪板商店中遇到的每个人的概率。目标函数f:X→{0,1}将每个人进行分类,判断它是否会在本年内购买滑雪板。在这个一般的框架中,我们感兴趣的是以下两个问题:1.给定假设h和包含若干按D分布随机抽取的样例的数据集,如何针对将来按同样分布抽取的实例,得到对h的精度的最好估计。2.这一精度估计的可能的误差是多少?5.1.1样本错误率和真实错
7、误率为解决上述的两个问题,需要确切地区分出两种精度(或两种错误率)。其一是可用数据样本上该假设的错误率。其二是在分布为D的整个实例集合上该假设的错误率。它们分别被称为样本错误率和真实错误率。对于于从X中抽取的样本S,某假设关于S的样本错误率(sampleerror),是该假设错误分类的实例在S中所占比例:定义:假设h关于目标函数f和数据样本S的样本错误率(标记为errorS(h))为:其中n为S中样例的数量,而在时为1,否则为0。真实错误率(trueerror)是对于按D分布随机抽取的实例,该假设对它错误分类的概率。定义:假设h关于目
8、标函数f和分布D的真实错误率(由errorD(h)表示),为h误分类按D分布随机抽取实例的概率:这里,记号表示概率在实例分布D上计算。我们通常想知道的是假设的真实错误率errorD(h),因为这是在分类未来样例时出现错误
此文档下载收益归作者所有