面向大数据处理的 并行随机优化算法 计与实现

面向大数据处理的 并行随机优化算法 计与实现

ID:8268187

大小:4.15 MB

页数:44页

时间:2018-03-15

面向大数据处理的 并行随机优化算法 计与实现_第1页
面向大数据处理的 并行随机优化算法 计与实现_第2页
面向大数据处理的 并行随机优化算法 计与实现_第3页
面向大数据处理的 并行随机优化算法 计与实现_第4页
面向大数据处理的 并行随机优化算法 计与实现_第5页
资源描述:

《面向大数据处理的 并行随机优化算法 计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、面向大数据处理的并行随机优化算法设计与实现张云泉李士刚程大宁中国科学院计算技术研究所目录大数据与机器学习机器学习训练算法的本质分布式机器学习训练算法及其实现我们的工作•WP-SGD•半异步方法2大数据与机器学习FeatureengineeringandTraininginvariantsupportlargescaledistributeddeepvectormachinesusingnetworks(image-net)classifierensembleforselectivesamplingKD

2、DCup2010(KDDCUP2010)(mnist8m10年以前的数据库)1.1billion样本训练数据量:8407752训练数据量:810000042million模型大小模型大小:20216830模型大小:7843大数据与机器学习-总结1-机器学习需要大规模数据提供随机变量的表达很多机器学习问题可以看做是包含有随机变量的损失函数最小值问题CTR预测广告点击记录向量随机变量,预测损失函数(与错误率正相关)最小化图片分类图片二进制作为随机变量,预测损失函数(与错误率正相关)最小化绝大多数随机变量的

3、分布无法用精确的数学公式表达出来4大数据与机器学习-总结2-机器学习,尤其是训练阶段本身就是一种大数据问题相当多训练的数据库非常大,对于从计算机的角度看,本身就是一个大数据问题数据的分配调度并行算法的设计算法在集群上实现5大数据与机器学习-总结大数据技术对于机器学习训练算法至关重要。机器学习训练算法机器学习训练算法机器学习训练算法需要大数据的软件需要大数据的算法需要大数据的硬件技术协同各个节点实现计算和通讯的技术调度使用数据的工作覆盖提高计算效率6目录大数据与机器学习机器学习训练算法的本质分布式机器学

4、习训练算法及其实现我们的工作•WP-SGD•半异步方法7机器学习训练算法-样例支持向量机逻辑回归训练算法的目标:计算出训练算法的目标:计算出最小的权重,使得在测试最小的权重,使得在测试集上的hingeloss最小。集上的logloss最小。8机器学习训练算法机器学习可以看做是有特定随机变量的分类最小值问题INTEGRATESVIRTUALIZATIONMANAGEMENTWITHINFRASTRUCTUREMANAGEMENT9SGD算法sgd算法简介对于机器学习迭代步如下求解的函数类型大部分函数是如

5、下形式10SGD算法-证明思路和结论使用迭代步数弥补了过小的现在流行的证明步长和过大的可行定义域使用步长限制了梯度主要使用cesaro模长的最大值求和证明sgd收敛11SGD算法-从理论中看到的0102对函数本身需要一定的限制:数据量越大越好凸性,利普希茨连续性•对绝大多数问题,我们希望能够用更多的数据更精确地描述概率密度分布情况对绝大多数机器学习函数满足这些要求•更多的数据有助于我们选择越小的步长,越有利于给出更好的结果•本质上联系起来了大数据和机器学习两个领域12串行SGD算法-框架与实现caff

6、e-最流行的机器学习(深度学习)框架-使用protobuf描述网络,易于操作-在基础数学运算上使用GPU加速(卷积,矩阵乘法为主)•并行加速被使用的数学函数所限制13串行SGD算法-框架与实现purine−流式并行了神经网络的运算−最早使用“图”的形式表达神−经网络−几乎是线性的加速比•并行加速被规模所限制•具体的收敛性分析不详14目录大数据与机器学习机器学习训练算法的本质分布式机器学习训练算法及其实现我们的工作•WP-SGD•半异步方法15分布式SGD算法数据并行•bucketSGD类•miniba

7、tch模型并行•delaySGD类•Hogwild!16bucketSGD-数据并行(SimulParalSGD2010)•每个结点独立串行运算一个model•最后平均所有modelOUTPUTAVER-AGENODE1NODE2NODE3DATADATADATADATA-DATA-DATA-SETSET1SET2317bucketSGD-证明思路将模型看做随迭代次数变化的随机变量最后结果由三部分控制:‒当前模型概率密度分布的均值和收敛模型均值的差距•(迭代控制)‒当前模型概率密度分布的方差和收敛模型

8、方差的差距•(迭代控制,SimulParalSGD在此项收益)‒收敛模型和真正最小值得差距•(步长控制)18bucketSGD-证明解释fixedpointMinpointterationpoint19bucketSGD-优势与不足优势‒较少的通讯开销‒易于实现的算法设计不足‒SimulParalSGD并不总是奏效•要求数据库和目标模型的方差足够大•有些数据库方差减少的收益不及并行所需要的代价20bucketSGD-实现(MapReduce友好)绝大多数

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。