基于Spark on Yarn的淘宝数据挖掘平台.pdf

基于Spark on Yarn的淘宝数据挖掘平台.pdf

ID:51324108

大小:1.32 MB

页数:21页

时间:2020-03-10

基于Spark on Yarn的淘宝数据挖掘平台.pdf_第1页
基于Spark on Yarn的淘宝数据挖掘平台.pdf_第2页
基于Spark on Yarn的淘宝数据挖掘平台.pdf_第3页
基于Spark on Yarn的淘宝数据挖掘平台.pdf_第4页
基于Spark on Yarn的淘宝数据挖掘平台.pdf_第5页
资源描述:

《基于Spark on Yarn的淘宝数据挖掘平台.pdf》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、插上翅膀的大象基于SparkonYarn的淘宝数据挖掘平台 淘宝技术部——数据挖掘与计算明风 目录 •为什么选择SparkOnYarn •SparkOnYarn的原理和框架•淘宝在SparkOnYarn上做的工作•基于SparkonYarn的数据挖掘平台架构•案例性能Hadoop在数据挖掘遇到的问题 •多次迭代•中间数据的序列化和反序列化•简单的MR模式vs复杂的机器学习算法•OO编程vs函数式风格•图计算能力WhySparkRDD –内存计算–快速迭代–DAG Scala –FP编程–Actor模型–并发能力Hadoop –MapReduce –HDFS

2、访问Spark的生态圈 Shark Streaming Mllib Graphx (Hive)(Storm)(Mahout)(GraphLab)Spark (MapReduce) Local Standalone Mesos Yarn HDFS HBASE 淘宝的Spark之路 2012初 Spark0.5(Mesos)JustforLab2012中 Spark0.6(Standalone)10台小集群 2013.08Yarn版本: 阿里云梯1目前规模:0.23.7Spark0.8(Yarn)200台Yarn集群5000*2SparkonYarn的框架 A

3、pplication Master SparkContext3.启动AppMasterNode  ManagerDAG Scheduler 2.分配AppMasterYarnClusterScheduler 5.申请Container1.提交请求 Spark Yarn Resource ClientManager6.分配Container3.启动ContainerContainer Container Node  (ExecutorBackend)(ExecutorBackend)ManagerExecutorExecutor调度过程 RDD Object

4、s DAGScheduler TaskScheduler Worker Stage Cluster Manager Executor Block manager DAG TaskSet Task launch tasks via execute tasksBuildoperatorDAG split graph into stagescluster managerof taskssubmit each stage as retry failed or store and serve ready straggling tasksblocksIntroduct

5、iontoSparkInternals@Matei我们的社区跟进模式 BigJobsSparkRepository 提交PullRequestGithub 压力测试 是否对FolkWeeklyMerge社区有价值?修复BugSparkRepository内部Merge内部Gitlab测试服务器 发布生产服务器通过 生产服务器 我们做了什么?公开的1.Pull Request 681: Remove acOve job from idToAcOveJob when job finished or aborted 2.Pull Request 689: Job

6、s are always marked as SUCCEEDED even it's actually failed on Yarn 3.Pull Request 757: ResultTask's serializaOon forget about handling "generaOon" field, while ShuffleMapTask does 未公开的(和云梯Yarn团队密切相关)1.增加用户权限管理 2.工作jar包缓存机制 3.自动配置Spark临时缓存目录4.封装了一个运行脚本,使用资源文件配置Spark作业性能参数 5.添加一个Syslo

7、g来存放完整日志输出6.Executor监控页面增加跳转到日志的链接……封装的启动命令 spark_on_yarn      ‐‐queue cug‐queue‐spark      ‐‐jar /home/spark/mllib/libs/spark‐mllib_2.9.3‐0.7.0‐SNAPSHOT.jar      ‐‐class spark.mllib.recommendaOon.ALS      ‐‐args yarn‐standalone      ‐‐args  /group/spark/als/test.data      ‐

8、‐args 3      ‐‐args 10      ‐‐a

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。