混合异构数据的清洗、存储、挖掘架构选型和设计策略ppt课件.ppt

混合异构数据的清洗、存储、挖掘架构选型和设计策略ppt课件.ppt

ID:59037307

大小:2.01 MB

页数:20页

时间:2020-09-26

混合异构数据的清洗、存储、挖掘架构选型和设计策略ppt课件.ppt_第1页
混合异构数据的清洗、存储、挖掘架构选型和设计策略ppt课件.ppt_第2页
混合异构数据的清洗、存储、挖掘架构选型和设计策略ppt课件.ppt_第3页
混合异构数据的清洗、存储、挖掘架构选型和设计策略ppt课件.ppt_第4页
混合异构数据的清洗、存储、挖掘架构选型和设计策略ppt课件.ppt_第5页
资源描述:

《混合异构数据的清洗、存储、挖掘架构选型和设计策略ppt课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、混合异构数据的清洗、存储、挖掘架构选型和设计策略提纲Ø混合异构数据特点Ø混合异构数据分类Ø混合异构处理流程ØAdMaster混合异构数据平台架构ØAdMaster数据处理流程ØAdMaster混合异构数据分析ØQ/A混合异构数据特点Ø不同的数据类型Ø不同的数据量级Ø不同的访问速度Ø不同的用户类型Ø不同的访问平台Ø不同的存储设备Ø。。。混合异构数据分类数据内容数据特性数据结构使用频率数据访问量响应时间在线数据短周期数据字段固定高度结构化、复杂、适合操作计算非常高(热数据)KB、MB级纳秒、微秒、毫秒级离线数据长周期(存档、归纳、计算结果)字段不固定结构

2、简单一般(冷数据)GB、TB、PB级秒、分钟、小时、天级数据采集Internet非结构化数据结构化数据数据预处理清洗集成转换归约原始数据数据存储提炼数据分析BatchPigHiveZookeeper(Tez)Online(HBase)Streaming(MapReduce)(Storm,S4)In-MemoryInteractive(Spark)HPCMPI(OpenMPI)YARNClusterResourceManagementHDFSOS(操作系统)MahoutFlumeSqoopOozie应用服务数据展示互联网广告监测全流程AdMaster混合异构数据平台架构TextC

3、lusteringStormData API TextCategorizationMapReduceOpen APIAPI ServiceData MiningSystemDistributedSystemData CollectText Analysis API SentimentAnalysisSparkCrawlerData VisualizationApp LayerJS/ASRFront-end Application ServiceEChartsAdMaster混合异构数据平台架构OnlineMongoDB Ext4 SSDOnline/OfflineHBase H

4、DFS SATA DiskOnlineMysql Ext4 SATA DiskRealtimeRedis MemorySSDOfflineHDFS Ext4 SATA DiskRabbitMQAdMaster数据采集华南…华东InternetLVS华北LVSLVSLVSDNSBuzzResourceOthers…广告数据采集AdMaster数据采集Øcat /proc/sys/net/ipv4/tcp_memØcat /proc/net/sockstatØcat /proc/sys/net/ipv4/tcp_max_orphansØnet.netfilter.nf_co

5、nntrack_maxØnet.netfilter.nf_conntrack_tcp_timeout_establishedAdMaster离线数据分析输入拆分Python任务引擎PigPig算法1Pig算法NHDFS••输出合并MySQL每天新增 TB 级数据每天对千亿条记录进行几百种维度的计算Cascading内部算法1内部算法NHadoopMapReduce计算模型Streaming非固定算法1非固定算法NAdMaster离线数据分析Ø/sys/kernel/mm/redhat_transparent_hugepage/enabledØ/sys/kernel/mm/

6、redhat_transparent_hugepage/defragØdfs.socket.timeoutØdfs.datanode.max.xcieversØdfs.datanode.socket.write.timeoutØdfs.namenode.handler.countTrackAPISocialAPIAPIRawDataAdMaster在线数据分析MysqlMongoDBHBaseKeyPartnersBuzzResourceOthers…ProductCoreModuleAnalyticsReportDataCenterSocialCRMTrackSyst

7、emClickDataSiteSystem ProjectAlgorithmService分词情感分析标签分类NLP LabNLPServiceOnlineLearningServiceDataCollectionServiceSocialPlatformAPIServiceBuzzArticleCrawlerServiceProcessedDataAdMaster在线数据分析ØKafka & TailØHBase & MongoDBØStorm & RsyncØSpark & Ha

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。