基于随机子空间的最小最大模块化支持向量机研究与实现

ID：23050621

大小：2.47 MB

页数：88页

时间：2018-11-03

资源描述：

《基于随机子空间的最小最大模块化支持向量机研究与实现》由会员上传分享，免费在线阅读，更多相关内容在教育资源-天天文库。

1、南京邮电大学专业学位硕士研究生学位论文第一章绪论第一章绪论1.1机器学习概述我们生活在一个数据爆炸的时代，每个人每时每刻都在接触各个领域的大量数据，例如零售业、制造业、金融业以及医学领域和科学研究领域等等。随着信息技术的发展，面对日益剧增的数据，如何理解数据，并从中提取有价值的信息将成为一个非常重要的研究课题。举几个简单的例子，当你打开浏览器搜索生日卡，搜索引擎显示最相关的链接有10个。你认为最符合你要求的是第二个链接，点击此链接，搜索引擎将记录你的点击，并从中学习用于优化下次搜索的结果。或者当你打开电子邮件系统查收邮件的时候，此时后台已经自行启动了垃圾邮件过滤器，它将广告等垃圾邮件进行过

2、滤，并把它们都放入回收箱内。所举的这两个例子里，都包含有机器学习的软件。现在很多公司使用机器学习软件改善商业决策、提高生产率、检测疾病、预测天气，等等。随着技术指数级提高，我们不但需要使用更好的工具来分析当前的数据，并且要为以后可能出现的数据做好充分准备，同时利用机器学习方法对这些数据存在的未知的模式进行分析和挖掘，从而得到尽可能相似的模式和规律来造福人类。1959年，ArthurSamuel曾定义“如果一个系统可以通过执行某种过程而提高其性能，那么这就是学习[1]”。TomM.Mitchell给出一个更正式的定义，“关于某类任务T和性能度P，假如一个计算机程序在T上以P量度的性能随着经验

3、E而自我完善，那我们就称这个计算机程序从经验E中学习[2]”。总而言之，机器学习就是指利用实例数据或者过去的经验来训练模型以解决给定的问题，并且逐步优化该模型[3]，机器学习模型的基本结构如图1.1所示。目前，机器学习的应用已经十分广泛，如搜索引擎、生物特征识别、信用卡欺诈检测、证券市场分析、DNA序列测序、医学诊断、语音和手写体识别、机器人运用、计算机视觉和战略游戏等。麦肯锡全球研究院（MGI）最近的一份报告也说明，机器学习（也称数据挖掘或预测分析）将会启动下一轮创新[4]。输出y系统输入x数据发生器学习机预测输出ŷ图1.1机器学习模型的基本结构1万方数据南京邮电大学专业学位硕士研究生学

4、位论文第一章绪论需要是发明之母。最近几年，数据挖掘得到信息产业界的极大关注。因为在现实生活中，存在大量的数据并且其数量仍日益剧增，这些数据能够被广泛使用，因此需要利用某些技术把这些数据转换成对人们有用的信息与知识。得到的信息和知识能够广泛用于各种应用，例如商务管理，市场分析，生产控制，工程设计等。数据挖掘（DataMining）简单地说就是将机器学习方法应用到大型数据库上。因此，机器学习与数据挖掘有着十分密切的联系，可以说，数据挖掘是机器学习和数据库之间的交叉学科，如图1.2所示，机器学习主要提供一些数据分析技术，数据库则提供相关的数据管理技术。手动模式的数据挖掘方法已经出现在几百年前，贝

5、叶斯定理和回归分析都是早期的一些模式识别的方法。而今，随着互联网行业的快速发展，所产生的数据量不断增长，以前的手动挖掘方法已经无法处理大规模数据的挖掘问题，所以出现一些自动挖掘方法比如神经网络、遗传算法、决策树、聚类分析和支持向量机（SupportVectorMachine）等等。数据挖掘就是应用这些方法通过分析每个数据，从大量数据中寻找其规律的技术。目前呈爆炸式出现的海量数据以及十分繁杂的计算过程，已经成为数据挖掘领域最突出的问题。传统的机器学习方法多数采用串行的计算模式，已经远不能满足日益增长的海量数据的处理需求，因此需要对现有的机器学习算法进行扩展。Provost[5]指出，将现有的

6、串行机器学习方法以并行化的学习方式进行扩展，并应用到海量数据处理的问题上。他提出[6]使用超并行（massiveparallelism）来扩展归纳学习算法，他认为超并行就是将问题进行分解后，使用不同的处理器对各子问题并行处理，然后把各处理器上获得的结果进行结合。显然，这种并行化学习方法可以达到减少大规模数据的处理时间的目的，还能使训练数据分解，从而克服数据量大于内存带来的空间复杂度问题。这样就从某种程度上使得机器学习方法也可以适用于大规模的数据。这种超并行学习方法的关键部分在于分类器的集成，这时就需要用到集成学习方法。集成学习是指将问题先分给若干个学习器进行学习，然后将每个学习器的结果采取

7、某种规则进行整合得到最终的结果。数据挖掘析分据数数据管理机器学习数据库图1.2机器学习、数据挖掘和数据库三者之间的关系2万方数据南京邮电大学专业学位硕士研究生学位论文第一章绪论1.1海量数据的集成学习集成学习是机器学习领域的一种新技术，它通过训练多个学习器来求解同一问题[7]。与传统的学习方法不同，集成学习试图建立一系列假设集，然后将这些集合进行结合使用，并不是像传统的学习方法那样去试图从训练集学习一个假设[8]。197

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 88



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

基于随机子空间的最小最大模块化支持向量机研究与实现

基于随机子空间的最小最大模块化支持向量机研究与实现

相关文章

相关标签