机器学习研究(王珏)

机器学习研究(王珏)

ID:46282951

大小:209.50 KB

页数:93页

时间:2019-11-22

机器学习研究(王珏)_第1页
机器学习研究(王珏)_第2页
机器学习研究(王珏)_第3页
机器学习研究(王珏)_第4页
机器学习研究(王珏)_第5页
资源描述:

《机器学习研究(王珏)》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、机器学习研究王珏中国科学院自动化研究所2003年3月,北京,自动化所反思网络经济的泡沫破灭之后,哪些是值得我们在研究方向上反思的问题呢?我们的研究应注意哪些课题呢?需求---NII计划不分地域地、有效地获得与传输信息。不分地域地、有效地共享硬软资源。有效地利用信息,以提高生产率。保证信息安全。在过去的十年中,做了什么?以浏览器为核心技术的“有效获得信息”的研究取得了预期效果。人们已可以从不同地域有效地获得信息。但是,,,硬软资源的使用在网络上的硬软资源的利用率只有3-5%。大量计算资源没有由于网络设施的支持而被充分利用。

2、硬软件的快速更新,导致对环境的污染。信息的有效使用由于技术发展的滞后,在网络上获得的信息和与提高生产率有关的信息的有效使用率甚至低于1%。占用大量硬软资源的信息正在大量地被浪费。信息安全信息的安全还没有保证。提高信息使用率以机器学习为理论基础的各种方法,是提高信息使用率的有效途径之一。机器学习复杂数据分析(符号机器学习)机器学习机器学习的一般说明统计机器学习集成机器学习机器学习的研究动力领域应用驱动。算法驱动。领域应用驱动自然语言数据分析。DNA数据分析。网络与电信数据分析。图像数据分析。金融与经济数据分析。零售业数据分

3、析。情报分析。没有一种算法可以解决复杂的实际问题。需要各种算法集成。算法驱动海量数据(108-10)。算法的泛化能力,或算法可解释。不同类型数据的学习方法。机器学习研究热点的变迁1989年(Carbonell),1997年(Dietterich)符号机器学习。符号机器学习。连接机器学习。集成机器学习。遗传机器学习。统计机器学习。分析机器学习。增强机器学习。机器学习计算的说明令W是这个给定世界的有限或无限所有对象的集合,由于我们观察能力的限制,我们只能获得这个世界的一个有限的子集QW。机器学习的任务就是根据这个世界的对象

4、子集Q,计算这个世界的统计分布。这样,在统计意义下,这个分布对这个世界的绝大多数对象是正确的。这就是这个世界的一个模型。三个要求一致性假设:机器学习任务的本质。对样本空间的划分:决定对样本的有效性。泛化能力:决定对世界的有效性。一致性假设假设世界W与被观察的对象集合Q具有某种相同的性质。称为一致性假设。基于统计的假设原则上说,存在各种各样的一致性假设。在统计意义下,一般假设:W与Q具有同分布。或,给定世界W的所有对象独立同分布。划分将被观测的对象集合放到一个n维欧氏空间,寻找一个超平面,使得问题决定的不同对象分在不相交的

5、区域。机器学习主要研究的是这部分内容,即,寻找划分对象集合的超平面(等价关系)。超平面类型光滑且连续的超平面。有限不光滑点,甚至有限不连续点的超平面。光滑连续超平面作为研究基础Perceptron,人工神经网络是典型例子。困难:对线性不可分的对象集合,如果限制算法是P的,则存在本质性困难。泛化机器学习的首要任务是划分。只有找到一个等价关系(模型),将不同类的样本划分为不同的类,才能考虑其他问题。泛化是一个确定的划分对世界的分类能力。由于可能存在不同的划分样本集合方法,其泛化能力不同,泛化能力最强的划分就是我们希望的分类器

6、。Duda的泛化能力描述以样本个数趋近无穷大来描述模型的泛化能力。泛化能力需要使用世界W来刻画,是无法构造的判据。均方差可作为目标函数。评述由于人们没有找到基于样本集合Q的描述泛化能力的数学工具。另外,线性不可分问题是一个困难。在感知机时代,基于Duda泛化理论无法指导机器学习算法的设计,这样,评价机器学习算法只能以划分能力作为指标。Vapnik对这个问题做出重要贡献。这样,注重从划分变为泛化。以划分能力为目标的研究这类研究的指导思想,一直延续到上个世纪的九十年代。直到今天,还有大量的学者以此作为机器学习的指导思想。以B

7、P算法为核心的神经网络研究是典型例子。划分是机器学习的一个目标,但是,不是预测任务的主要研究目标。神经网络---BP算法使用了一种非线性的基函数。这项研究的意义是为研究者回归感知机做好了舆论的准备。其在科学上的意义,远不如提示人们再次注意感知机的作用更大。统计机器学习理论与SVM对机器学习的研究者来说,统计机器学习理论所派生的算法SVM似乎更有吸引力。但是,如果研究者忘记SVM所基于的统计基础,就与Vapnik的本意相悖了。事实上,Vapnik的统计理论才是其精华,而基于这个理论的算法只是从这个统计理论派生的自然结果。机

8、器学习的统计假设机器学习的统计基础是基于经验风险最小假设,以此,对机器学习算法所建模型的泛化能力估计(经验风险)。Vapnik的统计观点Vapnik希望改变Duda的统计观点。泛化描述“从样本数趋于无穷大”变为“在给定样本集”基础上判定。由此,建立基于样本集合结构的VC维来描述的理论。这样,机器学习的目标函数就可以建

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。