混合异构数据的清洗、存储、挖掘架构选型和设计策略

混合异构数据的清洗、存储、挖掘架构选型和设计策略

ID:16026608

大小:137.50 KB

页数:24页

时间:2018-08-07

混合异构数据的清洗、存储、挖掘架构选型和设计策略_第1页
混合异构数据的清洗、存储、挖掘架构选型和设计策略_第2页
混合异构数据的清洗、存储、挖掘架构选型和设计策略_第3页
混合异构数据的清洗、存储、挖掘架构选型和设计策略_第4页
混合异构数据的清洗、存储、挖掘架构选型和设计策略_第5页
资源描述:

《混合异构数据的清洗、存储、挖掘架构选型和设计策略》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、混合异构数据的清洗、存储、挖掘架构选型和设计策略混合异构数据的清洗、存储、挖掘架构选型和设计策略@卢亿雷FromAdMaster提纲??????混合异构数据特点???????混合异构数据分类???????混合异构处理流程???????AdMaster混合异构数据平台架构???????AdMaster数据处理流程???????AdMaster混合异构数据分析???????Q/9><>A?混合异构数据特点??????不同的数据类型???????不同的数据量级???????不同的访问速度???????不同的用户类型???????不同的访问平台???????不同的存储设备??

2、?????。。。?混合异构数据分类在线数据离线数据数据内容短周期数据长周期(存档、归纳、计算结果)数据特性字段固定字段不固定数据结构高度结构化、复杂、适合操作计算结构简单使用频率非常高(热数据)一般(冷数据)数据访问量KB、MB级GB、TB、PB级响应时间纳秒、微秒、毫秒级秒、分钟、小时、天级数据采集Internet?非结构化数据结构化数据?数据预处理清洗?集成?转换?归约?原始数据数据存储提炼数据分析HDFS离线计算(MapReduce)PigHiveZookeeperOS(操作系统)在线计算(HBase)流式计算(Storm)实时计算(Spark)YARNMaho

3、utFlume应用服务KafkaMQMySqlMongoDB数据展示搜索引擎展示广告社交媒体品牌官网电子商务品牌调研视频广告??AdMaster大数据管理平台?广告曝光数据网站数据调研数据电商数据社会化数据物流数据门店数据渠道数据广告点击数据AdMaster混合异构采集AdMaster混合异构数据平台架构MapReduce?分布式计算?Storm?Open?API?数据采集?Crawler?Text?Categorization?Text?Clustering?Sentiment?Analysis?数据挖掘?Front-end?Application?Service?

4、应用服务?Data?API??Text?Analysis?API??API?服务?Spark?数据可视化?JS/AS?R?ECharts?Realtime?Memory?SSD?Online?Ext4??SATA?Disk?Online?Ext4??SSD?Online/Offline?HDFS??SATA?Disk?OfflineAdMaster混合异构数据平台存储架构MongoDBHBaseHDFSMysqlRedis?Ext4??SATA?Disk?RabbitMQAdMaster数据采集华南?…?华东?Internet?LVS?华北?LVS?LVS?LVS?D

5、NS?社会化数据采集Others…广告数据采集AdMaster数据采集??????cat?/proc/sys/net/ipv4/tcp_mem???????cat?/proc/net/sockstat???????cat?/proc/sys/net/ipv4/tcp_max_orphans???????net.netfilter.nf_conntrack_max???????net.netfilter.nf_conntrack_tcp_timeout_established?AdMaster离线数据分析Pig输入拆分任务调度输出合并Pig算法1Pig算法NHadoop

6、MapReduceStormMySQL????每天新增?TB?级数据?????每天对千亿条记录进行几百种维度的计算?Cascading内部算法1内部算法N计算模型Streaming非固定算法1非固定算法NRabbitMQRedisFieServerHBaseClientAdMaster离线数据分析??????/sys/kernel/mm/redhat_transparent_hugepage/enabled???????/sys/kernel/mm/redhat_transparent_hugepage/defrag???????dfs.socket.timeout?

7、??????dfs.datanode.max.xcievers???????dfs.datanode.socket.write.timeout???????dfs.namenode.handler.count?AdMaster在线数据分析MysqlMongoDBHBaseKeyPartnersBuzzResourceOthers…ProductCoreModuleSocialCRMDataCenterAnalyticsReportClickDataTrackSystem?Project?SiteSystemAlgorithmServiceOnline

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。