携程spark算法平台及其应用

携程spark算法平台及其应用

ID:31840352

大小:11.23 MB

页数:37页

时间:2019-01-20

携程spark算法平台及其应用_第1页
携程spark算法平台及其应用_第2页
携程spark算法平台及其应用_第3页
携程spark算法平台及其应用_第4页
携程spark算法平台及其应用_第5页
资源描述:

《携程spark算法平台及其应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、携程Spark算法平台及其应用2016-12-10公司简介携程旅游网成立于1999年,总部设在上海,目前有员工30000余人2003年12月9日在美国纳斯达克成功上市携程拥有超过2.5亿的注册会员酒店预订:在全球200多个国家和地区拥有超过120万家酒店的会员酒店机票预订:产品覆盖全球六大洲5000多大中城市旅游度假:线路产品覆盖超过100多个目的地国家和地区;2015年大陆地区度假产品的服务人次超过2000万我的介绍浙江大学本科,硕士毕业近10年工作经验,5年大数据架构的经验之前在eBay中国研发中心和大众点评工作过,从0开

2、始组建团队,搭建起大众点评数据平台的基础架构目前是携程的大数据平台总监关注大数据系统领域的发展,对Hadoop,HIVE,HBASE,Spark,Storm等有所研究,致力于大数据系统和业务场景的结合和落地,使数据和系统都能够对业务(Business)产生价值目录背景介绍算法平台的功能算法平台的架构和实现算法平台的应用算法平台未来的方向平台缘起大背景:随着携程的业务发展,各个BU的机器学习的应用越来越多,训练的数据集也越来越大,单机的模型训练方式很难满足实际的需要,所以越来越多的同学会考虑使用Spark进行训练直接使用Spar

3、k进行模型训练的难点(特别是对于非工程背景的数据科学家):•入门时间较长•环境设置麻烦•程序调试困难•关注太多细节•独立开发,经验,代码无法分享平台基本目标服务工程经验较少的数据科学家•无需编程,模块拖拽完成模型训练处理流程的构建•执行过程可视化•方便地数据探索功能覆盖机器学习应用的整个生命周期•覆盖模型训练,导出,线上服务整个机器学习应用的生命周期系统开放,高度可定制•简便地模块定制,分享(适合工程能力强的资深用户)目录背景介绍算法平台的功能算法平台的架构和实现算法平台的应用算法平台未来的方向平台功能简介整个平台由以下4个功

4、能模块构成:•模型训练•创建模型训练流程(Pipeline)•运行和调试模型训练流程•数据探索•模块定制(高级)•训练结果导出•线上服务的开发支持机器学习SampleCase使用协同过滤算法进行电影推荐(DatafromNe5lex)1.训练数据(用户对于电影的评分数据)2.分流(训练集/测试级7:3)3.模型训练4.模型检验模型训练–流程创建1.点击相应模块,拖拽构成整个训练的流程模型训练–流程创建2.填写相关模块的参数模型训练–模块详解模块分为两种类型:•Transformer–输入是1或多个DataFrame,输出是1或

5、多个DataFrame•ModelTrainer-输入是1或多个DataFrame,输出是一个Model•特殊模块ModelTransformer—输入1个模型,1或多个DataFrame,输出1或多个DataFrame模型训练-训练模型的运行和调试模型训练-Scala和Python自定义模块模型训练-数据预览对于每个模块输出的DataFrame,我们都提供了数据预览和用户自定义SQL(SparkSQL)查询的功能模型训练-数据探索数据绘图:集成Pandas,matplotlib模块定制模块代码:•一段普通的Spark的代码•

6、参数使用特殊的占位符•参数信息自动识别为配置项*如果模块需要保存,则相关逻辑必须封装为spark.ml包中Transformer和EsImator的形式训练结果的导出导出的训练模型会保存在HDFS相关的路径下训练结果的导出查看已经保存的模型线上服务开发的支持提供Jar包,用户只要在maven中添加依赖,就能够使用相关的API开发步骤:1.初始化2.将输入数据转化为DataFrame3.Load起已经保存的Transformer和Model4.按照顺序调用Transform和predict方法目录背景介绍算法平台的功能算法平台的

7、架构和实现算法平台的应用算法平台未来的方向总体架构ZeppelinThriWServerstartstartWebServerruncreateSpark-ReplSparkContextSparkIMaininterpretYARNCluster总体架构2每个训练任务(称为pipeline)会单独起一个Zeppelin的ThriWServer初始化(Lazy):•WebServer调用Marathon(Mesos)的Res5ulAPI启动ZepplinThriWServer•ZepplinThriWServer会在YARN集

8、群中创建一个常驻的Spark任务执行:•WebServer中集成了ZeppelinClient,我们先将Pipeline和Module映射成为Zeppelin的Note和Paragraph,然后就会被提交到Zeppelin的ThriWServer执行•Zeppelin的Thr

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。