欢迎来到天天文库
浏览记录
ID:57649198
大小:124.33 KB
页数:6页
时间:2020-08-30
《腾讯深度学习平台.docx》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、1介绍1.1背景腾讯提供了一些列Internet服务,比如拥有3.9亿左右月激活用户的微信(WeChat)、以及8.4亿左右QQ用户和6.4亿左右的QZone用户。这些数据是来自于2014年第一季度。腾讯拥有超过100PB数据,这些数据由不同的应用以及不同的用户产生的,用户生成的数据比如有照片、语音和视频。近些年深度学习在大数据挖掘已经成为一个热点,也在不同领域取得了突破性的进展,比如语音识别(automaticspeechrecognition)和图像识别。深度学习能给腾讯的很多应用带来实质性改变,比如微信中的语音和图像识别、QQ和QZone的广告投放。当然如果想要深度学习
2、在腾讯真正发挥作用,必须考虑三方面的因素。l需要具备大量的计算能力和有效的并行框架去训练模型。比如:在微信中用于识别中文和英文的ASR(AutomaticSpeechRecognition)语音识别模型采用的是一个深层的神经网络(DNN)去训练,该模型大约有超过5000万参数,然后用100亿训练实例,如果只使用单个CPU去训练可能需要花上好几年时间,或者采用单个GPU去训练可能花上几个月时间l对于训练大型模型,必要的支持能提高模型质量。在CNNs中,通过增加更多MapFilter(小块区域映射)和更多的层可以提高分类的准确率。l灵活的框架对于做不同模型选择实验是相当有帮助的,
3、模型选择包括:选择模型架构、寻找优化方法、以及微调一个高性能模型的超参数为了解决上面的三方面因素,并行框架必须在模型训练更快、更大、更易用。一般并行框架分为两种:数据并行(Dataparallelism)和模型并行(modelparallelism),这两种框架是由GoogleDistBelief引进的,采用的是CPU组成的集群。由GoogleCOTS系统以及Facebook的Multi-GPU也才采用这种并行方案,这些系统是由GPU服务组成的。下面我们简单区分一下数据并行和模型并行,简单来讲数据并行就是把数据分成多份(每份称为mini-batch),每份数据跑一个模型副本,
4、然后用每个模型计算出来的梯度(gradients)去更新参数;模型并行就是把模型切分开来,让每个计算节点计算模型一部分,然后在计算过程中做内部交互。模型并行除了提高性能外,也减少每个节点内存消耗,由此它有可能处理更大的模型。除了一些公司内部特有的框架,在一些开源社区里面也有一些使用CPUs和GPUs的深度学习框架。然而这些开源社区的框架不适合腾讯内部的需求。因为这些开源社区使用的是单核多线程或者单GPU作为训练框架,缺乏有效的并行方案。1.2平台介绍为了支持深度学习,我们构建了Mariana深度学习平台,这个平台可以让模型训练更快,让超大模型训练成为可能以及更方便的做实验。经
5、验表明,构建一个通用的平台去解决一些列业务(微信中语音和图像识别、QQ和Qzone中的CTR预估)相当困难。因为不同的应用更强调是的特殊业务场景。由此Mariana构建了三个并行架构1.)多GPUs的数据并行框架,应用于DNNs2.)多GPUs的模型并行和数据并行框架,应用于CNNs3.)CPU集群模型并行和数据并行框架,应用于大规模的DNNs。Mariana在简化深度学习实验和减轻算法工程师负担做出了很大的努力。Mariana提供一些列服务,这些服务主要包括:内建的算法、灵活的调整超参数、检查点(checkpoint)和周期重启、生成自动测试报告以及训练任务的监控。Mari
6、ana已经被应用到腾讯的很多业务之中,比如在微信中的语音识别和图像识别、在QQ和Qzone中广告点击率预测,在这些业务中,深度学习已经在过去一年中真正发挥出了它的优势。Mariana主要架构是采样GPU服务器,每台服务器装配4或者6块GPU卡,当然Mariana也采样CPU服务器。多GPU的数据并行框架(建立DNN模型)服务于微信中的语音识别功能,根据实验数据表明一台6GPUs计算能力大约是单GPU计算能力的4.6倍。多GPU的模型并行和数据并行框架(建立CNN模型)服务于微信中的图像识别以及QQ的CTR预估上,根据实验数据表明4GPUs的计算能力大约是单GPU计算能力2.5
7、2倍。他们的CPU集群也是被用于建立语音设别模型上。1Multi-GPU数据并行DNN1.1业务场景Mariana内部包括Multi-GPU的深度网络(DNN),该深度网络首要的应用范围是语音识别(ASR)。语音识别是把输入音频信号分类成不同的三音素(triphones),在这里我们把。在我们的语音识别模型中,采用了4-6隐层的全连接深度网络去训练音频数据,该模型大约有5000万个参数。ASR属于计算密集型的,它需要大量计算资源,而仅仅需要1G内存,所以GPU是一个很好的备选方案,因为GPU相对于CPU
此文档下载收益归作者所有