基于Spark的实时用户画像分析系统-汪飞-1027.pdf

基于Spark的实时用户画像分析系统-汪飞-1027.pdf

ID:33688820

大小:2.96 MB

页数:26页

时间:2019-02-28

基于Spark的实时用户画像分析系统-汪飞-1027.pdf_第1页
基于Spark的实时用户画像分析系统-汪飞-1027.pdf_第2页
基于Spark的实时用户画像分析系统-汪飞-1027.pdf_第3页
基于Spark的实时用户画像分析系统-汪飞-1027.pdf_第4页
基于Spark的实时用户画像分析系统-汪飞-1027.pdf_第5页
资源描述:

《基于Spark的实时用户画像分析系统-汪飞-1027.pdf》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、基于Spark的实时用户画像分析系统 •汪飞(优酷‐大数据)•2015.10.23目录 用户画像 优酷用户画像系统 系统框架 实施方案与性能优化 计划与方向 用户画像 群体画像 游戏视频 精准推荐教育资讯 家装 精准营销 •实时•维度•任意群体•大数据量(TB)目录 用户画像 优酷用户画像系统 系统框架 实施方案与性能优化 计划与方向 用户画像分析系统 观看琅琊榜的他们是网剧、观众,投什么电视剧和娱广告呢?乐控 不仅是美妆和母婴,我们更爱学习 湖北、浙江、福建的观众更加偏爱琅琊榜 展示图表为非真实数

2、据,仅供演示 用户画像分析系统 退订的用户订阅我的用是年龄特征?户是否为重度用户?订阅我的用户喜欢哪些专辑?展示图表为非真实数据,仅供演示 用户画像分析系统 应用 资源 •定位任意群体进行投放•Spark集群•任意两个群体和差并交            CPU:200cores,RAM:700GB•任意两个群体对比分析•2台交互服务器•实时投影任意观众群体 CPU:22 cores,RAM:32GB 数据量 Benchmark•3~10亿用户•筛选响应时间:2s •数据量500G左右•群体合并:10

3、~20s •50多个画像维度•对比分析:15~20s •5000多个标签•实时投影:7~20s目录 用户画像 优酷用户画像系统 系统框架 实施方案与性能优化 计划与方向 用户画像分析系统 App精准推荐 用户画像 PushDMPServiceProjec?onFilterComparingAuthoriza?onTimed TaskCacheDataset ManagerUpdaterCalculatorJob ManagerRDD RegisterJob ServerTag AggregatorF

4、ilterStorageSparkCode JoinMergeParserRDDTachyonGeneratorScheduler目录 用户画像 优酷用户画像系统 系统框架 实施方案—交互式分析系统 计划与方向 交互式分析系统 给MapReduce我们得开源穿上SQLGoogle Dremel能不能不用Lucene是否可以mdrillMapReduce作分析?ImpalaData 我们做一个内存版MapReduceFrame的Hive有点慢了Dremel站在巨人的肩膀上要不直接内存吧看得更远 Pow

5、erDrill交互式分析系统 Column Oriented Storage 非常适合交互式分析系统MPP框架被多数框架采用内存是实现秒级响应的关键点,用户最大忍耐极限为15sBitmap是筛选操作的利器(配合压缩技术)编码(Dic?onary)以及压缩(Snappy)能够带来空间节省和性能提升目录 用户画像 优酷用户画像系统 系统框架 实施方案—分析引擎 计划与方向 Why Spark?RDD:全内存形式存储,支持多种压缩存储API:灵活的框架设计,能够轻松实现定制功能Map/Reduce:

6、天生的合并框架Job-Server:开源的异步Job管理框架Shark/DataFrame:支持SQL以及交互式操作Hadoop:兼容性很好Apache Drill/Druid Analytics:集群资源要求比较多高效筛选器(Filter)筛选器是怎么执行的?DSL Benchmarkclient语义分析 执行模型 Nest ExpressionNest Expression JSONANTLRASMASMJaninoJaninoSQLCode Scala ParserCode Gener

7、ator GeneratorJava  逻辑表达式 逻辑表达式 Java CompilerCompiler高效的Join模型 常见的几类Join模型:Nest Loop Join (Mysql) 时间复杂度:for m in left      for n in right �∗�          do join(m,n); 最慢,但是比较灵活,能够应对     end  多数情况 end Hash Join (Spark) for m in left 时间复杂度:put_into_hash_

8、map(m,left(m)) �+�end  for n in right 占用较多的内存,构建map的过    do join(right(n),get_from_hash_map(n)) 程非常慢 endSort Merge Join sort(left) sort(right) 时间复杂度:for m,n in left.length,right.length����↓�⁠� +����↓�⁠�+�+�     do merge_pick(left,right

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。