欢迎来到天天文库
浏览记录
ID:31988468
大小:1.30 MB
页数:30页
时间:2019-01-30
《亿级大数据实时分析平台》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、亿级大数据实时分析平台大数据的故事:价值为美大量,快速,多样,变化等采样的数据价值明显降低实时数据的价值为最大大数据外表光鲜亮丽,内则无可奈何大数据的变现之殇《大数据的8个小观点》小米的大数据技术框架数据采集数据存储数据管理数据分析算法可视化ScribeETLHDFSHBASEKafkaHueKerberosMapReduceSparkStromHiveImpala机器学习自然语言数据挖掘统计分析JavaScriptE-ChartsH5/AppZookeeperDruidESKUDU小米大数据应用广告营销点击预估人群画像营销DM
2、P精准营销搜索和推荐互联网金融精细化运营防黄牛图片分析和处理小米大数据实时分析场景案例http://dev.xiaomi.com数据分析的几个步骤数据收集JSSDKServer2Server数据处理清洗去噪反虚假数据数据建模模型管理模型优化数据分析数据报告数据预警数据洞察数据可视化热力图切片聚合战略分析诊断型分析响应型分析商业报表竞品分析,趋势分析智能引擎,预测模型预测型分析行动建议大数据分析工具MOLAPDRUIDElasticSearchkylinPinotROLAPImpalaHiveSparkSQLMySQL开源方案商业
3、方案如何选择数据分析工具小米数据统计分析平台-架构LVS/NGIXAnalyticsServerScribeLogHDFSKafkaStormMapReduceSparkHBaseMySQLESQueryServerRedisDRUIDFE-WEB运营洞察一些分析工具的技术和应用Pinot为什么青睐HBase?天⽣为了⼤数据改变Schema的时候平滑扩容⽅便成本考虑Facebook等公司做出了很好的⽰范⼀些重要的FeatureCheckAndPutIncrement原⼦性RowKeyTTL单RegionServer内的强⼀致⾼I
4、/O我们有三位HBaseCommitter!Hbase在小米的改进HBase在小米的改进HBase在小米如何从MySQL平滑迁移到HBASE?1.双写HBase和mysql2.迁移历史数据(使⽤用⽼老的时间戳)3.双读HBase和mysql,验证数据⼀一致性4.灰度返回HBase结果APPMySQLHBase几种开源MOLAP分析工具的比较DRUIDPinotkylin使用场景实时处理分析实时处理分析OLAP分析引擎开发语言JAVAJAVAJAVA接口协议JSONJSONOLAP/JDBC发布时间201120152015Spon
5、sorMetaMarkets/YahooLinkedIneBay技术实时聚合实时聚合预处理,CacheDRUID特点来自METAMarkets,应用在Yahoo,OneAPM,小米,阿里,Baidu为分析而设计为OLAP而生,它支持各种filter、aggregator和查询类型交互式查询低延迟数据,内部查询为毫秒级,高可用性集群设计,去中性化规模的扩大和缩小不会造成数据丢失。可伸缩现有的Druid部署每天处理数十亿事件和TB级数据。Druid被设计成PB级别。DRUIDArchitecture:http://druid.io*
6、Pinot,PowerDrill,DremelDRUID使用场景:广告实时统计分析架构图(非计费部分)FrontDoor点击/展现KafkaHDFSScribeDRUIDDataReplayDataViewer什么是Pinot分布式的实时OLAP数据分析平台用于LinkedIn内部,50个场景,250*3节点“谁看了我的Profile”“广告创建,跟踪”“内部数据分析BI等”功能SQL-Like查询,不支持JOIN支持多种数据源Kafka,Hadoop自动数据过期等不支持UDF(开发中)PinotComponentsArchit
7、ectureApacheKYLINhttp://kylin.io麒麟:eBay开源的分析引擎分布式分析引擎提供大部分SQL查询与BI工具集成,例如Tableau完整的工具集合管理界面任务监控增量更新结构图Kylin使用的场景:FastCubing场景一:API请求的分析:响应时间,错误类型等场景二:一些广告返回类型的分析查询延迟:秒级别支持EXCEL客户端的多维表ApacheKUDUHDFS:批处理,大数据高效,高延时HDFS:大吞吐,低延时(1msr/wSSD)HBASE:小吞吐,低延时来源于Cloudera场景:实时数据分析
8、,数据报表,读写数据操作小米应用:服务质量监控,问题排查工具小米KUDU的实践KUDU之前的数据流ETL:高延时LOG无序计算需要等待完整数据,才开始计算简化ETL流程访问性能优良DataSourceKAFKAStormKUDUIMPALA查询ElasticSe
此文档下载收益归作者所有