基于hadoop架构的数据驱动的svm并行增量学习算法

基于hadoop架构的数据驱动的svm并行增量学习算法

ID:13649434

大小:46.50 KB

页数:20页

时间:2018-07-23

基于hadoop架构的数据驱动的svm并行增量学习算法_第1页
基于hadoop架构的数据驱动的svm并行增量学习算法_第2页
基于hadoop架构的数据驱动的svm并行增量学习算法_第3页
基于hadoop架构的数据驱动的svm并行增量学习算法_第4页
基于hadoop架构的数据驱动的svm并行增量学习算法_第5页
资源描述:

《基于hadoop架构的数据驱动的svm并行增量学习算法》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、基于Hadoop架构的数据驱动的SVM并行增量学习算法  摘要:针对传统支持向量机(SVM)算法难以处理大规模训练数据的困境,提出一种基于Hadoop的数据驱动的并行增量Adaboost-SVM算法(PIASVM)。利用集成学习策略,局部分类器处理一个分区的数据,融合其分类结果得到组合分类器;增量学习中用权值刻画样本的空间分布特性,对样本进行迭代加权,利用遗忘因子实现新增样本的选择及历史样本的淘汰;采用基于HBase的控制器组件用以调度迭代过程,持久化中间结果并减小MapReduce原有框架迭代过程中的带宽压力。多组实验结果表明,所提算法具有优良的

2、加速比、扩展率和数据伸缩度,在保证分类精度的基础上提高了SVM算法对大规模数据的处理能力关键词:Hadoop;HBase;支持向量机;增量学习;集成学习;遗忘因子;控制器组件中图分类号:TP311文献标志码:A文章编号:1001-9081(2016)11-3044-060引言我们正处于大数据时代,数据的增长速率已经远远超出了单机计算能力的提升速率。如何提高分类算法处理海量数据的能力是一个亟待解决的问题。在分类算法领域,支持向量机(SupportVectorMachine,SVM)算法以其较好的健壮性和稳定性一直是主流的分类算法,SVM基于统计学习理

3、论中的结构风险最小化原则,有效解决了经典统计方法在处理高维度数据中所出现的维度灾难问题。但SVM作为一个计算密集型算法,串行方法难以适应海量数据,面对大规模训练数据时,设法在保证分离精度的基础上提高SVM训练效率和增量学习能力已经成为近几年SVM的一大研究热点提高SVM算法运行效率的方法之一是进行并行计算,SVM并行化主要有两种思路:一是基于算法本身进行并行化处理;二是采用多分类器实现并行化。文献[1]提出基于消息传递接口(MessagePassingInterface,MPI)的并行分布式SVM算法(CoDLib),但该算法在追求并行效率的同时忽

4、略对分类精度的验证。文献[2]提出一种层叠式SVM算法,通过级联来保证算法收敛,但因其迭代过程中数据成倍增长,收敛速度并不理想。文献[3]通过不完全Cholesky分解的方法实现了并行支持向量机(ParallelSVM,PSVM),降低了传统SVM算法的空间复杂度和时间复杂度,在学习精度与SVM算法相差不大的前提下,大幅提高了分类速度。文献[4]提出一种基于MapReduce的并行SVM算法,但算法为了保证精度需要借助外界信息,无法自动运行。文献[5]提出了基于可配置网络环境下分布式并行SVM训练机制。在强连接的网络中交换SV(SupportVec

5、tor)使得多个服务器可以以有限的通信代价和较快的训练速度并发处理分布式数据集在SVM高性能算法研究中,SVM增量学习的研究也受到了很多人的关注。不同于多数并行计算中利用硬件资源和重组算法步骤以提高训练效率,增量学习主要关注以下3个方面:增量学习的新样本、淘汰无用样本,以当前状态作为新一次学习的起点(热开始)。其中增量学习新样本较容易实现且大多数增量学习几乎均具有该能力,文献[6]提出一种仅支持增量加入样例的增量学习算法,容易造成样本过度累计,超出算法的处理能力。支持旧样本淘汰的增量学习算法,存在淘汰样例的机制难以确定的难点,该方法虽然可以通过有效

6、减小训练样本规模的方式提高算法处理能力,但淘汰机制设置不当会对分类精度造成一定损失,文献[7]提出一种基于超球选择候选支持向量的SVM增量学习算法,既实现了样本以增量方式加入系统,也实现了旧样本中无用部分的淘汰。支持热开始的增量学习算法以当前状态作为学习机更新的起点,使学习机的权值从一开始就接近于最优解,节约解的寻找时间,文献[8]提出一种支持热开始的增量学习算法,即算法可以将过去的解作为出发点找到新的解,不足之处是该方法需要存储历史样本目前,学者们也考虑到将增量学习与并行计算这两种提高算法运行效率的方法相结合:文献[9]提出了一种基于图形处理器(

7、GraphicsProcessingUnit,GPU)的最小二乘支持向量机(LeastSquare-SVM,LS-SVM)并行增量算法,计算速度比CPU算法快130倍,但存在分类精度较低、缺乏理论收敛域的不足;文献[10]在Hadoop平台上采用矩阵分解的方式实现了极限支持向量机(ExtremeSupportVectorMachine,ESVM)的并行增量算法模型(ParallelIncrementalExtremeSVM,PIESVM),在加速比、数据伸缩度和扩展度上均有较好的表现通过以上的研究可以看出,传统的并行处理方法,如MPI、网格计算存在

8、开发复杂、扩展性不佳等问题,利用云计算方法提高SVM算法运行效率逐渐成为研究的焦点。Hadoop作为云计算中的主流平台,具

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。