欢迎来到天天文库
浏览记录
ID:57275344
大小:15.50 KB
页数:3页
时间:2020-08-08
《基于机器学习算法的大数据处理.doc》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、基于机器学习算法的大数据处理作者:纪思捷胡豪杰来源:《电子技术与软件工程》2015年第23期 摘要随着网络技术与计算机技术的高速发展,数据量的爆发式增长,催生了大数据概念。大数据表现出数据海量性、构成复杂性、变化快速等特征,传统的小数据环境下机器学习算法无法解决大数据应用问题,基于此,进行大数据下的机器学习算法研究,成为了时代发展的必然诉求。在认知大数据的基础上,对大数据环境下的机器学习算法进行探究。 【关键词】大数据机器学习算法 1大数据内涵与特征认知 关于大数据的定义尚未统一,从狭义定义来看
2、,不能载入计算机内存储器的数据即大数据,虽然这种定义并非正式定义,但容易被理解与接纳。从广义定义来看,大数据指的是在传统IT技术与软件、硬件工具条件下,在一定时间范围内无法完成感知、获取、管理、处理与服务的数据集合。大数据特征主要表现数据量庞大、积累速度快、数据类型多样、变化性突出。从海量与复杂多变的数据中,如何进行有效数据挖掘,以获取数据中隐藏的知识与价值,是现代产业发展的重要方向。 传统机器学习主要包括四个部分,对人类学习过程进行理解与模拟;对人类用户与计算机系统之间的语言接口进行研究;问题自动规划能力设计;设计能够发现新事物的程序
3、以实现机器学习目的。然而传统机器学习多在小数据环境下运行,所依赖的机器学习算法难以支撑大数据学习。基于此,为解决大数据问题,必须深入研究大数据环境下的机器学习算法问题。 2大数据环境下机器学习算法分析 2.1大数据分治策略 大数据处理中,分治策略十分重要。一般而言,数据中样本差异性对学习结果的重要程度存在着较大影响,一些噪音数据与冗余数据在带来存储消费问题的同时,还会降低学习算法运行质量,影响机器学习精度。基于此,应采取一定的标准遴选出代表性样本,通过代表性样本构成子集,并在子集基础上进行学习方法构造,完成相
4、关的学习任务,从而在降低数据存储消耗问题的同时,提高运行效率与学习质量。然而当前主流的样本选取方法主要以小数据集为对象,如编辑最近领、约减最近邻与压缩最近邻等,这些样本选择方法以最小一致子集为核心概念。Jordan提出以分支算法进行大数据统计推理,这种方法实现的基础在于确定数据集合置信区间;Bootstrap理论提出,通过获取采样数据评估值波动来确定置信区间,然而大数据环境下数据具备不完全抽样特征,评估值波动范围难以准确捕捉。Jordan提出BagofLittleBootstraps程序,为大数据准确统计推理提供了可能。Jordan在矩阵计算中提出分
5、治策略,获得较好效果。 2.2大数据特征选择 多媒体索引、数据挖掘等多以大数据集为对象,其数据中包含庞大的记录数与属性数,从而对算法执行效率带来严重影响。基于此,进行大数据属性特征选择,将无关属性进行剔除,则能够提高算法运行效率,提高模型计算精度。大数据环境下其数据量庞大,内容种类繁杂,为提高大数据分析效率与质量,需要以张量分解为重要工具。Koida提出应用MET分解方法来解决传统张量分解中无法解决的大数据处理问题,通过MET程序以内存自适应为基础执行相关分解策略,实现了内存环境下最大化运行,有利于消除中间溢出问题。Ana
6、raki提出带阈值的模糊下近似模糊粗糙集特征选择方法,引入阈值以降低大数据集中选取特征数量,进一步提高数据特征提取准确性。 2.3大数据分类与大数据聚类 当前,大数据分类问题处理问题较为普遍。然而采取传统分类算法,难以实现大数据分类处理。如采取传统统计机器学习方法,则存在着无法应用于大规模数据集、置信区间拟合模型预测未执行等问题。基于此,Lau提出在线学习算法,在大数据分类问题中获得突破。Laskov则在研究中提出支持向量机学习方法。Kin基于增量核主成分分析与支持向量机等理论提出满足大数据的特征提取与分类算法,能够对大数
7、据分类问题提供解决路径。传统前馈神经网络采取梯度下降法进行权值参数调整,其泛化性能差且学习速度慢,Huang提出EIM方法,在单隐层神经网络输入权值与偏差项中采取随机赋值方式,能够有效提高学习效率。为确保大规模数据能够实现并行处理,Papadimitriou提出MapReduce模型,通过该模型实现协同聚类,以满足大规模数据聚类需求。 2.4大数据关联分析 Apriori算法属于关联分析的基础算法,在其基础上提出众多算法,如序列模式挖掘算法、广义序列模式算法等。为解决大数据关联问题,需要通过并行与增量两个方面来解决。Li提
8、出MapReduc并行Apriori算法,将产生候选集项的过程实现了并行化处理,切实提高了学习效率。有学者提
此文档下载收益归作者所有