欢迎来到天天文库
浏览记录
ID:16026608
大小:137.50 KB
页数:24页
时间:2018-08-07
《混合异构数据的清洗、存储、挖掘架构选型和设计策略》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、混合异构数据的清洗、存储、挖掘架构选型和设计策略混合异构数据的清洗、存储、挖掘架构选型和设计策略@卢亿雷FromAdMaster提纲??????混合异构数据特点???????混合异构数据分类???????混合异构处理流程???????AdMaster混合异构数据平台架构???????AdMaster数据处理流程???????AdMaster混合异构数据分析???????Q/9><>A?混合异构数据特点??????不同的数据类型???????不同的数据量级???????不同的访问速度???????不同的用户类型???????不同的访问平台???????不同的存储设备??
2、?????。。。?混合异构数据分类在线数据离线数据数据内容短周期数据长周期(存档、归纳、计算结果)数据特性字段固定字段不固定数据结构高度结构化、复杂、适合操作计算结构简单使用频率非常高(热数据)一般(冷数据)数据访问量KB、MB级GB、TB、PB级响应时间纳秒、微秒、毫秒级秒、分钟、小时、天级数据采集Internet?非结构化数据结构化数据?数据预处理清洗?集成?转换?归约?原始数据数据存储提炼数据分析HDFS离线计算(MapReduce)PigHiveZookeeperOS(操作系统)在线计算(HBase)流式计算(Storm)实时计算(Spark)YARNMaho
3、utFlume应用服务KafkaMQMySqlMongoDB数据展示搜索引擎展示广告社交媒体品牌官网电子商务品牌调研视频广告??AdMaster大数据管理平台?广告曝光数据网站数据调研数据电商数据社会化数据物流数据门店数据渠道数据广告点击数据AdMaster混合异构采集AdMaster混合异构数据平台架构MapReduce?分布式计算?Storm?Open?API?数据采集?Crawler?Text?Categorization?Text?Clustering?Sentiment?Analysis?数据挖掘?Front-end?Application?Service?
4、应用服务?Data?API??Text?Analysis?API??API?服务?Spark?数据可视化?JS/AS?R?ECharts?Realtime?Memory?SSD?Online?Ext4??SATA?Disk?Online?Ext4??SSD?Online/Offline?HDFS??SATA?Disk?OfflineAdMaster混合异构数据平台存储架构MongoDBHBaseHDFSMysqlRedis?Ext4??SATA?Disk?RabbitMQAdMaster数据采集华南?…?华东?Internet?LVS?华北?LVS?LVS?LVS?D
5、NS?社会化数据采集Others…广告数据采集AdMaster数据采集??????cat?/proc/sys/net/ipv4/tcp_mem???????cat?/proc/net/sockstat???????cat?/proc/sys/net/ipv4/tcp_max_orphans???????net.netfilter.nf_conntrack_max???????net.netfilter.nf_conntrack_tcp_timeout_established?AdMaster离线数据分析Pig输入拆分任务调度输出合并Pig算法1Pig算法NHadoop
6、MapReduceStormMySQL????每天新增?TB?级数据?????每天对千亿条记录进行几百种维度的计算?Cascading内部算法1内部算法N计算模型Streaming非固定算法1非固定算法NRabbitMQRedisFieServerHBaseClientAdMaster离线数据分析??????/sys/kernel/mm/redhat_transparent_hugepage/enabled???????/sys/kernel/mm/redhat_transparent_hugepage/defrag???????dfs.socket.timeout?
7、??????dfs.datanode.max.xcievers???????dfs.datanode.socket.write.timeout???????dfs.namenode.handler.count?AdMaster在线数据分析MysqlMongoDBHBaseKeyPartnersBuzzResourceOthers…ProductCoreModuleSocialCRMDataCenterAnalyticsReportClickDataTrackSystem?Project?SiteSystemAlgorithmServiceOnline
此文档下载收益归作者所有