journal的机器学习研究13

journal的机器学习研究13

ID:36010262

大小:1.46 MB

页数:27页

时间:2019-04-29

journal的机器学习研究13_第1页
journal的机器学习研究13_第2页
journal的机器学习研究13_第3页
journal的机器学习研究13_第4页
journal的机器学习研究13_第5页
资源描述:

《journal的机器学习研究13》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、目录1.介绍32预演42.1学习算法82.2比较不等式83主要结果93.1极小的下界的额外风险93.2上界的额外风险13致谢21附录A.满足假设221附录B定理11的证明25参考文献2627Journal的机器学习研究13(2012)67-90提交2/1修订9月11日发布的1/12插件的方法为主动学习责任编辑:桑乔伊达斯古普塔摘要我们提出了一种新的主动学习算法基于非参数估计的回归功能。我们的调查提供了概率的界限的收敛速度的泛化提出的方法实现的基础分布较广泛的一类错误。我们也证明了极小极大下限,这表明,所获得的速率几乎紧。 关键词:主动学习

2、,选择性抽样,模型选择,分类,置信区间。1.介绍定义(S,B)是一个可衡量的空间,让(X,Y)2S×{−1,1}是一对随机的数量与未知分布P.设计变量X的边缘分布,将被记为P.设h(x):=E(Y

3、X=x)作为回归函数。二进制分类的目标是预测标记Y是基于观察X.预测的基础上的分类器-可测函数f:S{−1,1}.。其泛化误差是衡量一个分类的质量。R(f)=Pr(Yf(X)).在实践中,分布P仍是未知的,但学习算法的训练数据的访问-独立同分布的样品,(Xi,Yi),i=1...n到P.经常发生获得训练数据的成本与标记观测值观察本身几乎是无限的

4、。这表明测量的一个学习算法的性能在其标签的复杂性,需要获得一个分类的标签所需的精度。主动学习理论主要致力于设计和分析的算法可以利用这个修改后的框架。大多数的这些程序可以被其特征化在于下面的属性:在每个步骤k中,观察被采样从分布的依赖上以前获得的(Xi,Yi),i(被动的学习者获取所有可用的培训数据在同一时间)。的设计被支撑在一组,其中,分类是困难的并且需要更多的标记的数据进行收集。主动的学习者优于被动的情况下,当算法被满足时,则可能会出现所谓Tsybakov的低噪声假设:存在常数B,g>0,使得t>0,P(x:

5、h(x)

6、t)(1)27这

7、种假设提供了一种方便的方式来表征的噪声电平的问题,并会在我们的调查中发挥了至关重要的作用。 主动学习的主题广泛存在于文献中;见Balcan等人。(2009年),Hanneke(2011年),卡斯特罗和诺瓦克(2008年)进行审查。人们发现,在某些情况下的泛化指令得到的分类器的校准误差可以收敛到零指数速度相对于它的标签而被动学习的最佳速度的复杂性(通常是多项式的基数训练数据集)。然而,现有的算法,适应未知参数(GTsybakov的低噪声假设,规律性的决策边界问题)涉及经验风险最小化与二进制损失,以及与其他计算上的问题,请参阅balcan等。

8、(2008年),Dasgupta等人。(2008年),Hanneke(2011年)和Koltchinskii。对其他另一方面,算法,可以有效实施,在卡斯特罗和诺瓦克(2008年),是不自适应的。以前的工作在该领域的大多数标准的复杂性的假设下进行上的一组可能的分类器(如覆盖数多项式增长)。卡斯特罗和诺瓦克(2008年)获得了他们的研究结果的规律性条件下的决策边界,这是稍微更多的限制,则(1)的噪声假设。从本质上讲,他们证明,如果决策边界是图的光滑函数(见第2的定义)和噪声假设满意的>0,则极大极小下限。预期超额风险的有效分类是C(N/log

9、N)和上限是C.的,其中N是标签预算。但是,建筑的分类达到了上限,假设和已知。在本文中,我们考虑主动学习经典的非参数假设下回归函数问题即,我们认为它属于到一定的S(b,K,[0,1]d)和满足到低噪声的条件(1)与一些积极因子。在这种情况下,奥迪韦特和Tsybakov(2005年)的工作结果显示,该插件的分类器可以达到最优的价格在被动的学习框架,即预期超额风险的分类在范围C.(这是最佳的速率),其中ˆh是局部多项式估计的回归函数而N是训练数据集的大小。我们能够部分地把这种说法延伸为主动学习的情况:第一,我们获得的额外风险极小极大下界的活性

10、,分类器在其标签复杂度方面。第二,我们提出了一个新的算法,基于插件的分类,达到几乎最优的价格分布广泛的一类,具有适应性,相对于的b,g(在一定范围内的这些参数)。27本文的结构如下:下一节介绍其余的符号,并指定的主要假设整个文件。这是其次的定性描述我们的学习算法。第二部分的工作包含的陈述和证明,我们的主要结果-极大极小的上限和下限的额外风险。2预演我们主动学习的框架有以下规则:1.观察顺序采样:被采样从修改后的分布PˆK的取决于2.是采样从条件分布PY

11、X(·

12、X=x)。标签是有条件独立的特征向量 一般,分布Pk被支持的一组分类是困难的地

13、方。给定的概率测度Q的S×{-1,1},我们用积分就这措施的。设F是一类有界的,可衡量的功能。的风险和过剩的风险的fF相对于Q的定义的措施。RQ(f):=QIysignf(x)EQ(f):=R

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。