资源描述:
《机器学习及其相关算法综述》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第22卷第5期统计与信息论坛2007年9月Vol.22No.5Statistics&InformationForumSept.,2007【国际统计动态】机器学习及其相关算法综述11,2陈凯,朱钰(1.中国人民大学统计学院,北京100872;2.西安财经学院统计学院,陕西西安710061)摘要:自从计算机被发明以来,人们就想知道它能不能学习。机器学习从本质上是一个多学科的领域。它吸取了人工智能、概率统计、计算复杂性理论、控制论、信息论、哲学、生理学、神经生物学等学科的成果。文章主要从统计学习基础的角度对机器学习的发展历程以及一些相关的常用算法进行了简要的回顾和介绍。关键词:机器学习;有指导
2、学习;无指导学习;半指导学习中图分类号:TP181文献标识码:A文章编号:1007-3116(2007)05-0105-08作出某些推断以及描述数据是如何组织或聚类的。一、引言它并不需要某个目标变量和训练数据集,例如,聚类机器学习的研究主旨是使用计算机模拟人类的分析或关联规则分析等。学习活动,它是研究计算机识别现有知识、获取新知半指导学习是近年来机器学习中一个备受瞩目识、不断改善性能和实现自身完善的方法。这里的的内容:已得的观察量中一部分是经由指导者鉴认学习意味着从数据中学习,它包括有指导学习(Su2并加上了标识的数据,称之为已标识数据;另一部分pervisedLearning)、无指导
3、学习(Unsupervised观察量由于种种原因未能标识,被称为未标识数据。Learning)和半指导学习(Semi-SupervisedLearn2需要解决的是如何利用这些观察量(包括已标识数ing)三种类别。据和未标识数据)及相关的知识对未标识的观察量有指导学习,之所以称它为“有指导的”,是指有的标识做出适当合理的推断。解决这类问题常用方结果度量(OutcomeMeasurement)的指导学习过程。法是采用归纳-演绎式的两步骤路径,即先利用已我们希望根据一组特征(Features)对结果度量进行标识数据去分析并指出适当的一般性的规律,再利预测,例如根据某病人的饮食习惯和血糖、血脂值
4、来用此规律去推断得出有关未标识数据的标识。这预测糖尿病是否会发作。我们通过学习已知数据集里,前一步是从特殊得到一般结论的归纳步,后一步[1]的特征和结果度量建立起预测模型来预测并度量未则是将一般规律用于特殊情况的演绎步。这里的知数据的特征和结果。这里的结果度量一般有定量关键是如何选择出合适的无标识样本并进行标记。的(Quantitative)(例如身高、体重)和定性的(Quali2值得注意的是,现有的半指导学习方法的性能通常tative)(例如性别)两种,分别对应于统计学中的回不太稳定,而半指导学习技术在什么样的条件下能归(Regression)和分类(Classification)问题
5、。常见的够有效地改善学习性能,仍然是一个未决问题。比有指导学习包括:决策树、Boosting与Bagging算法、较有代表的做法有:利用NaiveBayes这样的生成式人工神经网络和支持向量机等。模型(GenerativeModel),通过EM算法来进行标记[2]在无指导学习中,只能观察特征,没有结果度估计和参数估计;通过转导推断(TransductiveIn2[3]量。此时只能利用从总体中给出的样本信息对总体ference)来优化特定测试集上的性能;利用独立冗收稿日期:2007-07-03基金项目:国家自然科学基金重点项目(10431010);教育部重点基地重大项目(05JJD9100
6、01);中国人民大学应用统计中心项目作者简介:陈凯(1978-),男,安徽巢湖人,博士生,研究方向:统计模型;朱钰(1964-),男,山西运城人,副教授,博士生,研究方向:应用数理统计学。105统计与信息论坛[4]余的属性集来进行协同训练等。节点即为实例所属的分类。决策树的核心问题是选择分裂属性和决策树的剪枝。决策树的算法有很二、机器学习发展历程多,有ID3、C4.5、CART等等。这些算法均采用自机器学习是人工智能研究较为年轻的分支,它顶向下的贪婪算法,每个节点选择分类效果最好的[5]的发展过程大体上分为四个时期。属性将节点分裂为2个或多个子结点,继续这一过第一阶段是20世纪50年代中
7、叶到60年代中程直到这棵树能准确地分类训练集,或所有属性都叶,属于热烈时期。在这个时期,所研究的是“没有已被使用过。下面简单介绍最常用的决策树算法—[6]知识”的学习,即“无知”学习。其研究目标是各类自分类回归树(CART)。组织系统和自适应系统,其主要研究方法是不断修分类回归树(CART)是机器学习中的一种分类改系统的控制参数和改进系统的执行能力,不涉及和回归算法。设训练样本集L={x1,x2,⋯,xn,与具体任务有关的知识。本阶