H3C大数据产品技术白皮书

H3C大数据产品技术白皮书

ID:39454360

大小:1.84 MB

页数:15页

时间:2019-07-03

H3C大数据产品技术白皮书_第1页
H3C大数据产品技术白皮书_第2页
H3C大数据产品技术白皮书_第3页
H3C大数据产品技术白皮书_第4页
H3C大数据产品技术白皮书_第5页
资源描述:

《H3C大数据产品技术白皮书》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、H3CFlexDataMPPCluster技术白皮书H3C大数据产品技术白皮书杭州华三通信技术有限公司2021年7月杭州华三通信技术有限公司IIH3CFlexDataMPPCluster技术白皮书目录1H3C大数据产品介绍11.1产品简介11.2产品架构11.2.1数据处理21.2.2数据分层31.3产品技术特点4先进的混合计算架构4高性价比的分布式集群4云化ETL4数据分层和分级存储5数据分析挖掘5数据服务接口5可视化运维管理51.4产品功能简介6管理平面功能:6业务平面功能:62DataEn

2、gineHDP核心技术83DataEngineMPPCluster核心技术83.1MPP+SharedNothing架构83.2核心组件93.3高可用103.4高性能扩展能力103.5高性能数据加载113.6OLAP函数123.7行列混合存储12杭州华三通信技术有限公司IIH3CFlexDataMPPCluster技术白皮书1H3C大数据产品介绍1.1产品简介H3C大数据平台采用开源社区ApacheHadoop2.0和MPP分布式数据库混合计算框架为用户提供一套完整的大数据平台解决方案,具备高性

3、能、高可用、高扩展特性,可以为超大规模数据管理提供高性价比的通用计算存储能力。H3C大数据平台提供数据采集转换、计算存储、分析挖掘、共享交换以及可视化等全系列功能,并广泛地用于支撑各类数据仓库系统、BI系统和决策支持系统帮助用户构建海量数据处理系统,发现数据的内在价值。1.2产品架构H3C大数据平台包含4个部分:杭州华三通信技术有限公司-8-H3CFlexDataMPPCluster技术白皮书第一部分是运维管理,包括:安装部署、配置管理、主机管理、用户管理、服务管理、监控告警和安全管理等。第二部

4、分是数据ETL,即获取、转换、加载,包括:关系数据库连接Sqoop、日志采集Flume、ETL工具Kettle。第三部分是数据计算。MPP采用分析型分布式数据库,存储高价值密度的结构化数据;Hadoop存储非结构化/半结构化数据和低价值密度结构化数据。计算结果都存到数据仓库,数据仓库中的数据可直接用于分析和展示。数据仓库是面向主题的、集成的、稳定的且随时间不断变化的数据集合,用以支持经营管理中的决策制定过程。第四部分数据服务,包括:机器学习、数据挖掘、数据检索、数据可视化、即席分析、SQL和AP

5、I,为应用层提供服务和中间件调用。第1章1.11.21.1.1数据处理对于大数据管理平台,应该建立一套标准化、规范化的数据处理流程,例如:如何采集内部和外部数据、结构化和非结构化数据;如何清洗采集来的脏数据和无效数据;如何对不同来源的数据进行打通;如何对非结构化的数据进行结构化加工;如何在结构化数据的基础上进行商业建模和数据挖掘等等。大数据管理层在一条数据总线上构建了一条完整的大数据处理流水线。这条流水线从数据的采集、清洗到加工处理,把原始杂乱无章的数据加工成结构化的数据组件,供上层的大数据应用

6、来拼装调用,让企业拥有创造数据资产的能力。杭州华三通信技术有限公司-8-H3CFlexDataMPPCluster技术白皮书1.1.1数据分层lODS层:数据来源于各生产系统,通过ETL工具对接口文件数据进行编码替换和数据清洗转换,不做关联操作。未来也可用于准实时数据查询。l轻度汇总层:主题域内部基于明细层数据,进行多维度的、用户级的汇总l明细数据层:主题域内部进行拆分、关联。是对ODS操作型数据按照主题域划分规则进行的拆分及合并。l信息子层:报表数据、多维数据、指标库等数据来源于汇总层。汇总层

7、:主题域之间进行关联、汇总计算。汇总数据服务于信息子层,目的是为了节约信息子层数据计算成本和计算时间。l应用层:应用系统的私有数据,应用的业务数据。精细化营销做为大数据平台的一个上层应用,由大数据平台提供数据支撑。杭州华三通信技术有限公司-8-H3CFlexDataMPPCluster技术白皮书1.1产品技术特点第1章1.1先进的混合计算架构•采用Hadoop和MPP融合技术架构,对半结构化和非结构化数据支持并行计算和低成本存储,提供低时延、高并发的查询和分析功能;对结构化数据采用MPP分布式列

8、存储,支持分布式计算、智能索引等功能,实现高性能结构化数据分析处理。集成MapReduce、Spark、Storm、Tez等多种计算框架,利用YARN资源管理做统一管理,可在同一份数据集上运行多种计算。离线计算、内存计算和流式计算并存,能满足高吞吐、大数据量和低时延实时处理等多方面的数据计算要求。高性价比的分布式集群•基于x86服务器本地的计算与存储资源,计算集群可以动态调整,从数台到数千台之间弹性扩展,按需构建应用,减少总体成本;同时,在设计时充分考虑了硬件设备的不可靠因素,在软件层面提供计算

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。