基于Spark的实时用户画像分析系统-汪飞-1027.pdf

基于Spark的实时用户画像分析系统-汪飞-1027.pdf

ID:52948273

大小:2.96 MB

页数:26页

时间:2020-04-02

基于Spark的实时用户画像分析系统-汪飞-1027.pdf_第1页
基于Spark的实时用户画像分析系统-汪飞-1027.pdf_第2页
基于Spark的实时用户画像分析系统-汪飞-1027.pdf_第3页
基于Spark的实时用户画像分析系统-汪飞-1027.pdf_第4页
基于Spark的实时用户画像分析系统-汪飞-1027.pdf_第5页
资源描述:

《基于Spark的实时用户画像分析系统-汪飞-1027.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于Spark的实时用户画像分析系统 •汪飞(优酷‐大数据)•2015.10.23目录 用户画像 优酷用户画像系统 系统框架 实施方案与性能优化 计划与方向 用户画像 群体画像 游戏视频 精准推荐教育资讯 家装 精准营销 •实时•维度•任意群体•大数据量(TB)目录 用户画像 优酷用户画像系统 系统框架 实施方案与性能优化 计划与方向 用户画像分析系统 观看琅琊榜的他们是网剧、观众,投什么电视剧和娱广告呢?乐控 不仅是美妆和母婴,我们更爱学习 湖北、浙江、福建的观众更加偏爱琅琊榜 展示图表为非真实数据,仅供演示 用户画像分析系统 退订的用户订阅我

2、的用是年龄特征?户是否为重度用户?订阅我的用户喜欢哪些专辑?展示图表为非真实数据,仅供演示 用户画像分析系统 应用 资源 •定位任意群体进行投放•Spark集群•任意两个群体和差并交            CPU:200cores,RAM:700GB•任意两个群体对比分析•2台交互服务器•实时投影任意观众群体 CPU:22 cores,RAM:32GB 数据量 Benchmark•3~10亿用户•筛选响应时间:2s •数据量500G左右•群体合并:10~20s •50多个画像维度•对比分析:15~20s •5000多个标签•实时投影:7~20s目

3、录 用户画像 优酷用户画像系统 系统框架 实施方案与性能优化 计划与方向 用户画像分析系统 App精准推荐 用户画像 PushDMPServiceProjec?onFilterComparingAuthoriza?onTimed TaskCacheDataset ManagerUpdaterCalculatorJob ManagerRDD RegisterJob ServerTag AggregatorFilterStorageSparkCode JoinMergeParserRDDTachyonGeneratorScheduler目录 用户画像

4、 优酷用户画像系统 系统框架 实施方案—交互式分析系统 计划与方向 交互式分析系统 给MapReduce我们得开源穿上SQLGoogle Dremel能不能不用Lucene是否可以mdrillMapReduce作分析?ImpalaData 我们做一个内存版MapReduceFrame的Hive有点慢了Dremel站在巨人的肩膀上要不直接内存吧看得更远 PowerDrill交互式分析系统 Column Oriented Storage 非常适合交互式分析系统MPP框架被多数框架采用内存是实现秒级响应的关键点,用户最大忍耐极限为15sBitmap是筛

5、选操作的利器(配合压缩技术)编码(Dic?onary)以及压缩(Snappy)能够带来空间节省和性能提升目录 用户画像 优酷用户画像系统 系统框架 实施方案—分析引擎 计划与方向 Why Spark?RDD:全内存形式存储,支持多种压缩存储API:灵活的框架设计,能够轻松实现定制功能Map/Reduce:天生的合并框架Job-Server:开源的异步Job管理框架Shark/DataFrame:支持SQL以及交互式操作Hadoop:兼容性很好Apache Drill/Druid Analytics:集群资源要求比较多高效筛选器(Fi

6、lter)筛选器是怎么执行的?DSL Benchmarkclient语义分析 执行模型 Nest ExpressionNest Expression JSONANTLRASMASMJaninoJaninoSQLCode Scala ParserCode Generator GeneratorJava  逻辑表达式 逻辑表达式 Java CompilerCompiler高效的Join模型 常见的几类Join模型:Nest Loop Join (Mysql) 时间复杂度:for m in left      for n in right �∗�  

7、        do join(m,n); 最慢,但是比较灵活,能够应对     end  多数情况 end Hash Join (Spark) for m in left 时间复杂度:put_into_hash_map(m,left(m)) �+�end  for n in right 占用较多的内存,构建map的过    do join(right(n),get_from_hash_map(n)) 程非常慢 endSort Merge Join sort(left) sort(right) 时间复杂度:for m,n in left.le

8、ngth,right.length����↓�⁠� +����↓�⁠�+�+�     do merge_pick(left,right

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。