开源主导的大数据技术

开源主导的大数据技术

ID:32383772

大小:1.17 MB

页数:20页

时间:2019-02-04

开源主导的大数据技术_第1页
开源主导的大数据技术_第2页
开源主导的大数据技术_第3页
开源主导的大数据技术_第4页
开源主导的大数据技术_第5页
资源描述:

《开源主导的大数据技术》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、大数据技术与产品标准实践姜春宇张诚中国信息通信研究院移动与大数据研究部数据中心联盟大数据技术与产品工作组组长2016年10月25日提纲1大数据标准发展情况2测试实践3总结和下一步建议2大数据产业发展背景工。数据流通公业。。共农金业工业互联网/智能交通等服融务电子政务/交教育/医疗…视频支网上银行/第三方支付通互联网金融音乐付文网络视互联网电视学网络音乐应用频商店商业BB阅读网站百科电子大数据应用传S书媒B2BB2CC2C线上线下商务(O2O)通门户网新闻网博社交网站微博客信站站客Em即时通网络电话微信ail信大数据技术和

2、平台3开源主导的大数据技术•以Hadooop、Spark、NoSQL数据库为主的大数据技术从开始就走上了开源的道路,通过开源走向壮大•开源技术≠成熟的产品–技术种类多–技术门槛较高–不够稳定–安全漏洞–易用性差–缺少服务支持4大数据技术与产品的标准化需求供应商共性的评估体系和标准用户将技术与应用场景相对应将复杂的产品转化为容易理解的指标•技术和产品众多,缺•需求模糊少标准来规范市场•技术选型困难•重复的POC测试•产品评估过程成本很高•缺少产品和技术间横•使用难向比较•日常的运维很繁杂•需要引入用户需求来引导产品研发供应

3、商和用户之间存在明显的信息鸿沟5重要意义厂商•保障大数据技术和系统的健康发展–客观的指标体系保证厂商之间有序竞争–对技术难点集中进行攻关,专注于性能改进–定义合理的用户场景需求引导产品研发方向公众•大数据系统度量标准–指标易于理解–测量方法公开公平用户•帮助客户进行数据库系统的选型•较少POC测试的花费6大数据产品标准发展历程第一阶段标准制定第三阶段标准制定联合20多家企业,四次会议讨论《大数据平台基准测试第一部分:技术要20多家企业,5次电话会议讨论求》——方法论、负载和数据需求、指标Hadoop/Spark大数据性能

4、测试方法《大数据平台基准测试第二部分:测试方面向4种任务类型,12个用例法》——10个测试用例,条件、流程、方法20146月-2015年1月底20164-6月底201510月-2016年3月20167-10月底第二阶段标准制定第四阶段标准制定联合20多家企业,3次工作组会议,5联合国内10家数据库厂商,5次工作组会议,次电话会议讨论形成2次电话会议完成《MPP数据库基础能力测试方法》《Hadoop基础能力能力测试方法》----6大指标,50个测试用例7大指标项,38个测试用例《MPP数据库性能测试方法》继续中7基础能力认

5、证指标体系运维管理可用性功能兼容性安全多租户扩展性Namenode主节自动化部署数据导入ODBC兼容性认证租户管理集群动态扩展点失效恢复Namenode备节资源监控SQL任务能力JDBC兼容性授权资源管理集群动态收缩点失效恢复Datenode节点失作业监控NoSQL数据库SQL支持度加密资源隔离效恢复HMaster节点失效集群操作机器学习传统数据库同步审计权限管理恢复RegionServer节跨不同数据库表关故障管理流处理能力点失效恢复联操作日志管理HDFS备份恢复配置管理HBase备份恢复运维管理节点失效大数据产品基础

6、能力认证包括七大项:权限管理及恢复功能、运维、多租户、可用性、安全、用户管理兼容性、扩展性,总共38项测试用例无宕机升级8性能专项认证用例分布SQL任务NoSQL任务机器学习批处理I/O密集型任务数据并发导入Kmeans无监督聚类TerasortMRI/O密集CPU密集型95%的读,5%的写贝叶斯有监督分类报表任务50%的读和50%的写分析型任务读、更改、写交互式查询大数据产品性能专项认证包括SQL任务、NoSQL任务、机器学习和批处理四类任务,总共12个测试用例9大数据产品标准化标准化框架基础能力性能指标导向场景导向•

7、•功能••批处理••运维管理••SQL任务••可用性••Nosql任务••安全••机器学习任务••兼容性••图计算任务••扩展性••流处理任务••其他(可扩展)••其他(可扩展)10提纲1标准发展情况2测评实践3总结和下一步建议11大数据产品能力认证发展历程第二批认证第四批认证Hadoop/Spark大数Hadoop和MPP数据据基础能力认证库基础能力和性能专6家企业项。20163-4月底201610月-12月底20156-8月底20166-8月底第一批认证第三批认证大数据基准测试Hadoop/Spark大数华为、移动、

8、星环、据基础能力和性能专中兴、Ucloud5家企项认证6家企业参与业12测试实验室环境.....22台戴尔R730服务器+10台联想R450服务器.....锐捷RG-S6220-48XS4QXS万兆交换机组件配置台数CPU2*英特尔至强E5-2620v32.4GHz,15M缓存324*16GBRDIMM,2133MT

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。