【智能数据技术峰会】数据科学的挑战.pdf

【智能数据技术峰会】数据科学的挑战.pdf

ID:49700902

大小:2.82 MB

页数:31页

时间:2020-03-04

【智能数据技术峰会】数据科学的挑战.pdf_第1页
【智能数据技术峰会】数据科学的挑战.pdf_第2页
【智能数据技术峰会】数据科学的挑战.pdf_第3页
【智能数据技术峰会】数据科学的挑战.pdf_第4页
【智能数据技术峰会】数据科学的挑战.pdf_第5页
资源描述:

《【智能数据技术峰会】数据科学的挑战.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、数据科学的挑战EndeavorofTalkingData张夏天ChiefDataScientistTalkingData数据科学家的一天数据科学的盛世BigData孕育出一个又一个奇迹TalkingData的数据TalkingData的数据科学银行地产用户画像IDGraph互联网金融成就客户位置数据挖掘零售家庭WiFi数据挖掘识别数据自动DataCloud聚合观象台Lookalike大规模机器学习融入产品DMP+MarketingCloud深度学习TDGO算法和技术数据科学的挑战N计算瓶颈DataComputa

2、tion人的瓶颈突破计算的瓶颈算法的计算瓶颈NDataComputationChengT.Chu,SangK.Kim,YiA.Lin,YuanyuanYu,GaryR.Bradski,AndrewY.Ng,KunleOlukotun,Map-ReduceforMachineLearningonMulticore,NIPS,2006.计算量倍数增长DataIO开销巨大机器学习的并行模式•开发友好AllReduce•同步代价大•网络瓶颈较大•支持大模型•开发友好•表达能力强•稀疏数据效率高•兼容各种并行模式•支持大

3、模型•比MR灵活ParameterMapReduceServerMPIGraph-Base•稠密数据通信代•同步代价大价高•不是为大数据设•网络瓶颈大计的•模型规模有限制•学习曲线较高•开发不友好•部分算法效率低•容错性差大规模机器学习平台简介ParameterMapReduceGraph-BaseServer大规模机器学习的反思仅通过增加计算和内存资源是否能解决计算的瓶颈问题?DataComputation理想的算法Data随机决策树和随机决策哈希算法Fan,W.,Wang,H.,Yu,P.S.andMa,S

4、.Israndommodelbetter?Onitsaccuracyandeciency,IEEE线性算法ICDM,3(2003).比决策树快两个VS数量级XiatianZhang,QuanYuan,ShiwanZhao,WeiFan,WentaoZheng,andZhongWang,Multi-label更精确classicationwithoutthemulti-labelcost,SDM,2010.更稳定并行化困难Wefoundout:XiatianZhang,WeiFan,NanDu,RandomDec

5、isionHashingforMassiveDataLearning,BigMine2015ofKDD2015RDT和RDH的精度DataRDHRDTJ48SMOLRa1a0.8810.8790.7120.7600.751a9a0.8860.8900.7550.7610.763mushrooms1.0001.0001.0001.0001.000w1a0.9090.9530.6130.7480.732w8a0.8940.997-0.7970.822splice0.9660.9090.9350.8430.853co

6、d-rna0.9710.9690.9440.9440.937covtype0.7610.768-0.705gisette0.934-RDT和RDH的训练时间DataRDHRDTJ48SMOLRa1a0.1940.5691.8611.5741.010a9a1.70924.171647.0131637.01135.901mushrooms0.4813.60813.6511.6653.993w1a0.3830.93423.0220.7596.561w8a18.83833.759-487.39371.836splice

7、0.4990.3870.7701.7420.819cod-rna10.9337.799155.76362.7054.271covtype68.545240.392--299.667gisette82.513-RDT的并行化(ForBinaryFeatureData)父节点:(p-1)/2(奇数),(p-2)/2(偶数)0:f40左子节点:2*p+1右子节点:2*p+2Hash(0+s)mod8=4Hash(2+s)mod8=0Hash(5+s)mod8=012:f02(0+1)mod8=1345:f15:f05

8、6Conflict!RDH的并行化和Bitmap加速训练HashCode预处理DevData100MaskDevScoreDevData000……DevScoreDevData011MaskDevScoreDevData111DevScore……DevData000DevScoreDevDataLSH111DevScoreRDHMODELDevData000DevScoreDevDat

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。