基于Spark的实时用户画像分析系统-汪飞-1027.pdf

ID：33688820

大小：2.96 MB

页数：26页

时间：2019-02-28

资源描述：

《基于Spark的实时用户画像分析系统-汪飞-1027.pdf》由会员上传分享，免费在线阅读，更多相关内容在教育资源-天天文库。

1、基于Spark的实时用户画像分析系统 •汪飞（优酷‐大数据）•2015.10.23目录用户画像优酷用户画像系统系统框架实施方案与性能优化计划与方向用户画像群体画像游戏视频精准推荐教育资讯家装精准营销 •实时•维度•任意群体•大数据量（TB）目录用户画像优酷用户画像系统系统框架实施方案与性能优化计划与方向用户画像分析系统观看琅琊榜的他们是网剧、观众，投什么电视剧和娱广告呢？乐控不仅是美妆和母婴，我们更爱学习湖北、浙江、福建的观众更加偏爱琅琊榜展示图表为非真实数

2、据，仅供演示用户画像分析系统退订的用户订阅我的用是年龄特征？户是否为重度用户？订阅我的用户喜欢哪些专辑？展示图表为非真实数据，仅供演示用户画像分析系统应用资源 •定位任意群体进行投放•Spark集群•任意两个群体和差并交 CPU:200cores，RAM:700GB•任意两个群体对比分析•2台交互服务器•实时投影任意观众群体 CPU:22 cores，RAM:32GB 数据量 Benchmark•3~10亿用户•筛选响应时间：2s •数据量500G左右•群体合并：10

3、~20s •50多个画像维度•对比分析：15~20s •5000多个标签•实时投影：7~20s目录用户画像优酷用户画像系统系统框架实施方案与性能优化计划与方向用户画像分析系统 App精准推荐用户画像 PushDMPServiceProjec?onFilterComparingAuthoriza?onTimed TaskCacheDataset ManagerUpdaterCalculatorJob ManagerRDD RegisterJob ServerTag AggregatorF

4、ilterStorageSparkCode JoinMergeParserRDDTachyonGeneratorScheduler目录用户画像优酷用户画像系统系统框架实施方案—交互式分析系统计划与方向交互式分析系统给MapReduce我们得开源穿上SQLGoogle Dremel能不能不用Lucene是否可以mdrillMapReduce作分析？ImpalaData 我们做一个内存版MapReduceFrame的Hive有点慢了Dremel站在巨人的肩膀上要不直接内存吧看得更远 Pow

5、erDrill交互式分析系统 Column Oriented Storage 非常适合交互式分析系统MPP框架被多数框架采用内存是实现秒级响应的关键点，用户最大忍耐极限为15sBitmap是筛选操作的利器（配合压缩技术）编码（Dic?onary）以及压缩（Snappy）能够带来空间节省和性能提升目录用户画像优酷用户画像系统系统框架实施方案—分析引擎计划与方向 Why Spark？RDD：全内存形式存储，支持多种压缩存储API：灵活的框架设计，能够轻松实现定制功能Map/Reduce：

6、天生的合并框架Job-Server：开源的异步Job管理框架Shark/DataFrame：支持SQL以及交互式操作Hadoop：兼容性很好Apache Drill/Druid Analytics：集群资源要求比较多高效筛选器（Filter）筛选器是怎么执行的？DSL Benchmarkclient语义分析执行模型 Nest ExpressionNest Expression JSONANTLRASMASMJaninoJaninoSQLCode Scala ParserCode Gener

7、ator GeneratorJava 逻辑表达式逻辑表达式 Java CompilerCompiler高效的Join模型常见的几类Join模型:Nest Loop Join (Mysql) 时间复杂度：for m in left for n in right �∗� do join(m,n); 最慢，但是比较灵活，能够应对 end 多数情况 end Hash Join (Spark) for m in left 时间复杂度：put_into_hash_

8、map(m,left(m)) �+�end for n in right 占用较多的内存，构建map的过 do join(right(n),get_from_hash_map(n)) 程非常慢 endSort Merge Join sort(left) sort(right) 时间复杂度：for m,n in left.length,right.length��↓�⁠� +��↓�⁠�+�+� do merge_pick(left,right

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 26



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

基于Spark的实时用户画像分析系统-汪飞-1027.pdf

基于Spark的实时用户画像分析系统-汪飞-1027.pdf

相关文章

相关标签