统计机器学习研究

统计机器学习研究

ID:40680421

大小:27.15 KB

页数:6页

时间:2019-08-06

统计机器学习研究_第1页
统计机器学习研究_第2页
统计机器学习研究_第3页
统计机器学习研究_第4页
统计机器学习研究_第5页
资源描述:

《统计机器学习研究》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、第38卷 第6期2010年11月河南师范大学学报(自然科学版)JournalofHenanNormalUniversity(NaturalScience) Vol.38 No.6 Nov.2010  文章编号:1000-2367(2010)06-0035-06收稿日期:2010-03-10基金项目:国家自然科学基金项目(60850004,60727002,60774003);国家重点基础研究发展规划(973)项目(2005CB321902);国防基础研究项目(A2120061303);河南师范大学青年科学基金(

2、2010qk01,2010qk21)作者简介:李钧涛(1978-),男,河南南阳人,河南师范大学副教授,博士,研究方向:统计学习、智能控制等.统计机器学习研究李钧涛1,杨瑞峰2,左红亮1(1.河南师范大学数学与信息科学学院,河南新乡453007;2.新乡学院数学系,河南新乡453003)摘 要:通过将正则化框架引入到统计学习中来,介绍了几种当前流行的统计学习机器,分析了他们的性能,并探讨了快速求解算法.关键词:统计学习;机器学习;支持向量机中图分类号:TP273文献标志码:A基于数据的机器学习(MachineL

3、earning)是现代人工智能的一个核心研究领域,它研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能[1-5].狭义地,可以把机器学习理解为从观测数据(样本)出发寻找规律,利用这些规律对未来数据或无法观测的数据进行预测[1-2].针对有限样本下机器学习问题,Vapnik等人提出了统计学习理论(StatisticalLearningTheory)[3-4].随着来自不同领域的学者对统计学习理论更加深入的研究和广泛的应用,它已发展成为一门涵盖模式识别、函数逼

4、近论、生物医学、数据挖掘、线性及非线性优化等众多学科交叉的边缘学科.1 统计机器学习的发展Vapnik等人从20世纪六、七十年代开始致力于统计学习的研究,到90年代中期,随着其理论的不断发展和成熟,也由于神经网络等学习方法在理论上缺乏实质性进展,统计学习理论开始受到越来越广泛的重视[5,6].随后,著名统计学家Tibshirani,Hastie,Friedman,Wahba,计算机学家Christianini,Shawe-Tay-lor,人工智能学者Poggio,Mukherjee等人也纷纷开展相应的研究,获得

5、了大量的创新性成果.统计学习理论为解决有限样本学习问题提供了一个统一的框架,可以说是目前针对小样本统计估计和预测学习的最佳理论.在这种新理论体系下的统计推理规则不仅考虑了对渐近性能的要求,而且追求在现有有限信息的条件下得到最优结果.统计学习理论的一个核心概念就是VC维,它是描述学习机器的学习能力的一个重要指标,在此概念基础上发展出了一系列关于统计学习的一致性、收敛速度、泛化性能等重要结论.支持向量机(SupportVectorMachine)是统计学习理论中最年轻的内容,也是最实用的部分.其核心内容在1992到

6、1995年间被提出[7],目前仍处在不断发展的阶段[8-11].支持向量机是建立在统计学习的VC维理论和结构风险最小原理基础上的,它根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折衷,以期获得最好的泛化能力.使分类间隔最大化,即对泛化能力的控制是支持向量机的核心思想之一.给定训练样本(x1,y1),(x2,y2),…,(xn,yn),其中xi∈Rp是输入向量,yi∈{1,-1}是二值输出响应,支持向量机求解下面的最优化问题:minw0,w12‖w‖22+C∑ni=1ξi,(1)约束条件为yi(w0+xT

7、iw)1-ξi,ξi0,i=1,2,…,n,其中,C>0是一个常数,它控制对错分样本的惩罚程度.利用Lagrange乘子法,求解支持向量机等价于求解如下的二次规划问题:maxα∑ni=1αi-12∑ni,j=1yiyjαiαj(xi·xj),(2)约束条件为0αiC,i=1,2,…,n,∑ni=1αiyi=0.非零系数αi对应的向量xi是最靠近最优超平面的向量,被称为支持向量.通过把原问题转化为对偶问题,支持向量机计算的复杂度不再取决于空间维数,而是取决于样本中的支持向量数.这些特点使得支持向量机可以有效地处理

8、高维问题.对于非线性问题,支持向量机首先通过用内积函数(Mercer核函数)定义的非线性变换将输入空间变换到一个高维特征空间,然后在这个空间中寻求(广义)线性的最优分类面.支持向量机在解决小样本、非线性及高维模式中有着独特的优势:(1)它是专门针对有限样本情况的,其目标是得到现有信息下的最优解而不仅仅是样本数趋于无穷大时的最优值;(2)它最终求解的是一个二次型寻优问题,从理论上说,得到

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。