《科技行业信创正当时,国产数据库发展提速》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
产业概览:关系型数据库占主流,分布式时代加速到来数据库是信息系统运行的关键基础。从定义来看,数据库是按照一定的数据结构组织、存储和管理数据的仓库,在计算机中一般由一个或者一组文件构成;从本质来看,计算机解决的是数据计算和数据处理问题,数据库则是计算机应用系统中的专门管理数据资源的系统;从架构上看,数据库作为计算机三大基础软件(操作系统、数据库、中间件)之一,向下可充分发挥硬件算力,向上支撑上层的应用需求,是信息系统高效运行的关键基础。图表1:数据库是信息系统运行的关键基础资料来源:《中国分布式数据库市场报告》,沙利文(2021)、数据库软件的核心是数据库管理系统。数据库作为基础软件,可面向多种应用,被多个用户、程序共享,其中数据库管理系统(DataBaseManagementSystem,DBMS)负责搭建、处理、维护数据库的数据及数据间逻辑关系,由外部组件集与内核组件集共同组成:1)外部组件集:以数据库配套的独立支撑软件为主,例如数据库驱动;2)内核组件集:一般可以分为管理组件、网络组件、计算组件、存储组件四大模块。图表2:数据库管理系统总体架构图资料来源:《中国数据库发展研究报告》,中国信通院(2021)、
1产业复盘:变革与数据需求相协同,发展迈入后关系型阶段自20世纪60年代以来,数据库行业随信息技术发展而快速演变,主要经历了三大阶段:1)前关系型阶段(1964-1970):1964年查尔斯·巴赫曼(CharlesBachman)开发出第一个数据库管理系统,网状数据管理系统IDS(IntegratedDataStore)初步成型;随后为解决阿波罗登月计划所需的大量数据,1968年IMS(InformationManagementSystem)系统作为最早商业化的DBMS正式发布;此阶段数据库主要解决了数据独立存储、统一管理、统一访问的问题,实现了数据与程序分离,但缺乏被广泛接受的理论基础;2)关系型阶段(1970-2008):1970年,员埃德加·科德(EdgarF.Codd)发表《大型共享数据库的数据关系模型》,关系型模型理论被初步提出;随后关系型数据库(RelationalDatabaseManagementSystem,RDBMS)诞生,国际标准组织将SQL作为国际数据库标准语言,并进行标准化,SQL成为关系型数据库主流语言并引领变革,Access、MySQL、PostgreSQL等大批关系型数据库诞生,带动关系型数据库完成了从理论到实践的转换;3)后关系型阶段(2008-至今):随着Web2.0的到来,数据量出现指数增长,传统关系型数据库无法有效对应日新月异的数据类型及业务场景,为更有效地处理海量数据,应对多样的数据结构,NoSQL、NewSQL等非关系型数库脱颖而出,数据库迈入第三发展阶段。图表3:数据库产业发展进入后关系型数据库阶段资料来源:《中国数据库发展研究报告》,中国信通院(2021)、根据数据结构、架构模型、业务负载特征的不同,数据库可划分为不同类别。为了更清楚的了解数据库之间的特性差异,数据库产品可依照不同标准进行分类,常见的分类依据包括数据结构、架构模型、业务负载特征、部署方式等,其中数据结构类型是最常用的标准。1)根据数据结构类型:可分为关系型数据库、NoSQL数据库、NewSQL数据库;2)根据架构模型:可分为集中式数据库、分布式数据库;3)根据业务负载特性:可分为OLAP数据库(分析型数据库)、OLTP数据库(事务型数据库)、HTAP数据库(混合型数据库)。
2按数据结构分类:关系型、NoSQL、NewSQL数据库的数据结构类型随存储需求变化而不断拓展。最早的数据存储需求主要来源于结构化数据,因此数据库产品多采用关系型架构,主流产品包括:Oracle、MySQL、PostgreSQL等;2000年以后随着互联网应用的快速普及,产生大量非结构化数据的存储需求,NoSQL数据库快速兴起,主流产品包括Redis、MongoDB等;后来为解决NoSQL数据库缺乏强一致性及事务支持的问题,NewSQL数据库逐步发展,主流产品包括:Spanner、TiDB等。图表4:数据库数据结构类型随存储需求变化不断拓展IDC、1)关系型数据库关系型数据库是由多个二维表所组成的集合。关系型数据库,是指采用了关系模型来组织数据的数据库,数据以行和列的形式进行存储,这一系列的行和列被称为表,一组表组成了数据库。表格之中每一行通过独有的主码(PrimaryKey)来区分彼此,每一列都拥有统一的数据类型,外码(ForeignKey)通常与主码(PrimaryKey)一起使用,用于建立表与表之间的联系,通过匹配外码以寻找相应的行。图表5:关系型数据库典型架构IDC、关系型数据库具备ACID特性,为主流数据库类型。关系型数据库严格遵循原子性Atomicity、一致性Consistency、隔离性Isolation、持久性Durability(以上简称ACID特性),在维护数据库完整性、数据一致性方面优势突出,适用于对数据安全性、事务支持高度要求的应用场景。1)原子性:为避免不同指令之间的冲突,数据库中的事务执行被视为原子不可再分,指令要么全部成功执行,要么失败而保持原状;2)一致性:为确保业务逻辑一致性,数据库设置约束与触发器保证数据库完整性,任何事务看到的数据总保持一致;3)隔离性:数据库通过加锁,保证事务之间相互隔离,从而避免脏读、幻读等;4)持久性:为避免数据库丢失等意外事故,数据库所有指令都将会被永久保存,不会被回滚。
31)NoSQL(NotOnlySQL)数据库NoSQL数据库尝试解决关系型数据库的扩展可用性缺陷。不同于关系型数据库,NoSQL数据库只遵守BASE模型:基本可用BasicallyAvaliable、软状态Softstate、最终一致性Eventualconsistency:1)基本可用:当系统出现故障时,NoSQL数据库不像关系型数据库一样进行强制拒绝,而是允许损失部分可用功能或降低响应速度,以保证核心功能可用;2)软状态:在处理数据过程中,允许数据状态出现暂时不一致的情况;3)最终一致性:NoSQL数据库只追求最终的结果一致,数据处理的过程中暂时不一致将被允许。NoSQL数据库解决了关系型数据库刚性架构的拓展性缺陷,NoSQL的动态架构可实现横向扩展。NoSQL数据库更适用于海量数据的快速读写场景。NoSQL概念早在1998年就已经被CarloStrozzi提出,21世纪初才进入规模化发展阶段,主要原因在于2008年互联网进入Web2.0时代,大量非结构化数据出现,数据量呈现指数型增长,传统的关系型数据在非结构化数据处理、海量数据快速读写、数据库扩展等方面的劣势逐渐暴露,因此,基于BASE特性的NoSQL架构被重新提出并得到快速发展,MongoDB、Redis、HBase等NoSQL数据库逐步进入大众视野,并实现了在电商、社交网络、搜索引擎等领域的应用落地。常见NoSQL数据库主要包括键值型数据库、列族数据库、文档数据库、图数据库:(1)键值型数据库:适用于内容缓存,如会话、配置文件、参数等。其扩展性高,灵活性好,大量操作时性能高,但数据无结构化,查询方法单一;(2)列族数据库:适用于分布式数据存储与管理,将同一列数据存在一起,可扩展性强,查找速度快,复杂性低,但功能局限;(3)文档数据库:适用于存储文档数据,数据结构灵活,但缺乏统一查询语法;(4)图数据库:适用于图像数据、社交网络、推荐系统,专注构建关系图谱,支持复杂的图形算法,但只能支持一定的数据规模。图表6:NoSQL数据库分类及典型产品资料来源:《WhatisNoSQL?》,Matob(2021)、2)NewSQL数据库NewSQL数据库实现关系型数据库与NoSQL数据库的优势整合。尽管NoSQL数据库处理数据的速度快,常用于处理海量数据,但NoSQL数据库并不遵守ACID原则,无法满足事务一致性要求。2011年,MatthewAslett提出NewSQL(可横向扩展的OLTP关系型数据库)概念,2012年谷歌公司发布Spanner与F1论文,用原子钟和TruetimeAPI解决分布式问题,推动NewSQL快速发展。NewSQL架构旨在整合关系型数据库与NoSQL数据库的优势:1)保留NoSQL数据库对海量数据处理的速度与可扩展性;2)采用以SQL为主要接口的关系数据模型,保持传统关系型数据库的ACID特性。近年来NewSQL数据库快速发展,主要包括三类发展路径:1)基于全新的架构设计,代表产品为GoogleSpanner、HANA;2)基于分片中间件,代表产品为ScaleArc;3)基于云服务商的DaaS(database-as-a-service)平台,代表产品为AmazonAurora、ClearDB。
4关系型数据库与非关系型数据库各有千秋。对比来看,1)关系型数据库:严格遵守ACID原则,具备较强的约束性以及数据完整性,利于数据库的管理的同时也导致数据库难以扩展,在业务快速发展的信息时代存在一定的成本劣势;其二维的数据结构减少了数据的冗余,但读取海量数据效率不理想;作为传统数据库,关系型数据库发展时间长,技术成熟,学习成本低;2)NoSQL数据库:遵守BASE原则,相较于关系型数据库,更便于扩展,储存模式简单,查询速度更快;但其极高的可用性在一致性上做出了妥协,使用成本较高且不利于管理,相关技术具备较高的成熟度;3)NewSQL数据库:在底层解决了事务一致性问题,并整合了NoSQL在可扩展性、可用性上的优势,但NewSQL技术较新,学习成本较高,且目前大多NewSQL只适用特定场景,距离普及还需要一定时间。图表7:关系型数据库、NoSQL、NewSQL对比资料来源:《中国数据库行业研究报告》,艾瑞咨询(2021)、按架构模型分类:集中式架构、分布式架构集中式数据库指将信息存储、维护在单个位置的数据库。集中式数据库利用系统中心的服务器统一管理所有资源,对数据进行集中储存及管理,并由一台机器作为服务器。由于集中数据库的所有数据仅存储在单个位置,因此在数据访问、协调、管理方面具有突出优势,同时相较于其他数据库成本更低,为大多数企业最开始的选择。但随着数据存储需求的变化,集中式数据库的缺点逐渐显现:1)难以扩展:只能通过提升硬件性能实现数据处理性能的提升;2)容灾性差:集中式数据库采用完全共享(Shared-everything)架构,一旦任何环节发生系统故障,整个数据库系统都将无法使用。常见的集中式数据库架构,主要包括一主多备、一写多读、多写多读三类:1)一主多备(备用不可读):使用单台主机模式部署,其他备机为主机备份数据,并在主机宕机的情况下代替主机提供服务;2)一写多读:一个节点提供写服务,其他多个节点提供读服务,写节点宕机时,读节点可以代替写节点来提供服务;3)多写多读:多个计算节点共享存储,每个节点都提供读写服务,同时采用分布式锁或集中式锁解决写冲突。分布式架构逐渐成熟,主要解决集中式架构扩展性差的问题。不同于既重视数据库统一处理数据的架构,分布式数据库将数据分散在多个相互连接的节点上,通过使用多台机器,将需要处理的数据、工作均衡分散到各个节点中,各节点相互连接又能够独立工作,节点故障不会对其他节点产生影响。因此,近年来随业务拓展与数据体量变大,分布式架构成为众多企业的选择。分布式数据库涵盖两大核心技术:1)数据的复制/分区:通过复制或分区实现数据的多节点存放,复制包括主从复制、对等复制,分区包括垂直分区、水平分区(即分片);2)分布式事务:通过机制设计保证分布式环境下事务的ACID特性,包括两阶段提交(2PC)、三阶段提交(3PC)、最大努力通知等解决方案。
5图表8:集中式与分布式数据库对比《集中式数据库与分布式数据库》,墨天轮(2022)、分布式数据库技术路线选择上,都是以解决数据容量扩展问题为首要目标,主流方案包括三类:1)分库分表+中间件:下层的单机数据库提供存储和执行能力,在多个单机数据库上封装一层中间层补充分布式能力,以统一的数据分片规则管理分布在不同数据库节点的数据;2)共享存储架构:计算节点独立并且共享一个不带计算功能的存储集群(Shared-storage),采用存算分离架构,计算层和存储层都可以动态扩缩容;3)去中心化架构:每个节点有独立的计算和存储功能,采用存算分离架构,并且节点之间不共享数据(Shared-nothing),分布式集群的每个节点都是独立节点。图表9:分布式数据库主流技术方案资料来源:《中国分布式数据库市场报告》,沙利文(2021)、按业务负载分类:OLAP、OLTP、HTAPOLAP为分析型数据库,OLTP系统为事务型数据库。按业务负载类型区分,数据库大致可以分成两大类:联机事务处理OLTP(On-LineTransactionProcessing)、联机分析处理OLAP(On-LineAnalyticalProcessing):1)OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,记录即时的增、删、改、查,例如银行交易;2)OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果,典型的应用就是复杂的动态报表系统。
6HTAP(HybridTransactionandAnalysisProcessing)数据库为融合OLTP与OLAP业务的处理系统。企业通常通过OLTP、OLAP两个系统来支持不同任务,但二者间的数据交换往往存在延迟,无法满足实时分析,且维护成本高。因此,能够同时拥有OLTP与OLAP功能的数据库成为众多企业需求,HTAP由此诞生。HTAP基于分布式架构,不需要从OLTP导入到OLAP,能够轻松应对海量数据,相较于OLTP+OLAP的组合更简单通用,维护成本更低,但在分析海量数据时效率可能不及单独使用OLAP数据库进行分析。图表10:数据库产品朝HTAP方向融合发展《中国数据库行业研究报告》,艾瑞咨询(2021)、发展趋势:数据、计算双重变化加速分布式数据库时代到来数据库的发展与计算载体紧密相关。数据库是计算机行业的基础核心软件,所有应用软件的运行和数据处理都要与其进行数据交互。数据库的开发难度,不仅体现在与其他基础器件的适配,更在于如何实现对数据高效、稳定、持续的管理。从数据库的发展历程来看,计算架构的变化,计算载体的变化、计算场景的变化,以及计算数据格式的变化都对数据库的发展带来一定影响。或者说,在以上计算环境变化下,其需要的数据库类型也发生了变化。从计算载体来看,数据的计算从原来的大型机、到小型机、个人电脑PC、互联网、移动互联网、云计算,以及未来更多终端的物联网智能终端。计算的载体更加多样化。从计算场景来看,数据计算也从单独的单机计算,到互联网多群体交互的联网计算和云计算,以及万物互联的高并发、低时延的物联网计算。从计算架构来看,传统的IT架构也正逐步向云架构迁移。我们也经历了从C-S架构到B-S架构,而目前的云原生、分布式计算架构正对传统计算架构带来深刻变革。而新的计算架构也对计算的基础软件(操作系统、数据库、芯片等)提出更高的需求。图表11:计算载体、场景、架构呈现明显变化趋势资料来源:
7在以上计算环境的变化下,我们看到,联网的数据也在发生深刻变化。数据的大小。目前联网数据量也在高速增长。通信技术的发展带动从2G到3G、4G、5G的演进,每代通信技术之间,联网的数据规模也呈现(几个)数量级的增加。对大容量、高性能计算提出更高要求。数据的类型。计算场景的演变,我们对数据的定义也在发生变化。图片、语音、视频等非结构化数据成为增量数据的主要类型。联网的数据类型也逐步从原来的结构化数据到非结构化数据演变,这就对计算的并发性提出了更高的要求。数据的快慢。对数据的高速计算是计算机一直以来的追求。但原有的IT架构下,计算速度的提升存在一定的物理条件限制。经典的IT架构已经存在了几十年的历史,当时的IT架构并没有完全考虑到目前计算场景的变化。因此,新的计算场景下,对数据高速计算的追求,需要我们从底层基础软件的变革开始。我们看到无论芯片、操作系统还是数据库,都在经历深刻变革。图表12:数据规模、类型、快慢呈现明显变化趋势资料来源:全球关系型数据库市场增速渐趋平稳。近年来受数据量激增以及数据类型不断丰富影响,传统关系型数据库的流行程度呈下降趋势,据DB-Engines数据显示,近24个月关系型数据库的市场流行度下降8.23pct,市场增速逐步趋于平缓,据T4.ai预测,2018-2022年全球关系型数据库市场规模复合增长率为6%,较2012-2017年的11%或将有所下降。非关系型数据库的市场份额占比快速提升,根据Gartner2021年发布的《全球数据库管理系统(DBMS)市场报告》,2021年全球非关系型数据库的市场收入达148亿美元,占总体数据库市场的19%,相较于2017年8%的市场占比,非关系型数据库的市场份额显著提升。图表13:全球关系型数据库市场增速渐趋平缓图表14:全球关系型数据库流行度略有下降(2020.10-2022.10)15%13%11%9%7%5%3%1%-1%11%6%2012-20172018-2022130时间序列数据库文档数据库关系型数据库图数据库宽列数据库1201101009020-1020-1221-0221-0421-0621-0821-1021-1222-0222-0422-0622-0822-1080T4.ai、注:各类型数据库起始流行度均为100DB-Engines、
8全球数据量激增,分布式数据库机遇显现。随着智能移动手机普及、云计算的兴起以及互联网的快速发展,全球数据量不断攀升,据IDC数据显示,全球数据量已从2010年的1.2ZB增长至2020年的59ZB,复合增长率高达47.63%。据IDC预测,2025年全球数据量将进一步增长至175ZB,2020-2025年复合增长率为24.29%。随着数据量上升,全球数据库规模快速增长,据Gartner预测,2024年全球数据库市场规模有望突破千亿美元,2018-2024年复合增长率为13.78%,同时大数据分析、高并发计算、非结构化/异构数据处理的需求日益显现,分布式数据库兼具拓展性与高可用性,或将成为数据库行业新的增量市场。图表15:全球数据库市场规模快速增长图表16:2010-2020全球数据量复合增长率为47.63%(亿美元)1,0004611711,2001,0008006004002000200720182024E(ZB)1755933221234791620018016014012010080604020020102011201220132014201520162017201820202025E《全球数据库研究报告》,Gartner(2018)、IDC、在非结构化数据与高并发计算需求的推动下,分布式数据时代加速到来。在计算、数据的双重变革下,我们认为,数据库行业的发展演进也将经历重要的技术变革。在传统计算环境和数据类型方面,传统的关系型数据库依然发挥着重要的作用;但面向未来新的计算场景与数据需求,数据库产品亟需进行技术升级以适应下游需求的变化,通过统计国内外典型数据库厂商的技术路线及产品体系变化,我们判断,数据库行业已进入以云数据库、分布式数据库为代表的3.0阶段。图表17:数据库发展进入以分布式数据库为代表的3.0时期《国产数据库的崛起》,赵伟(2020)、
9竞争格局:海外数据库先发优势突出,国产数据库快速发展全球数据库产业呈现海外厂商主导的典型特征。相较海外厂商来说,国内数据库研究起步较晚,大约是20世纪90年代改革开放以后才开始进入萌芽阶段,该阶段数据库研究主要源自国家的相关研究计划或者大学科研需求,缺乏实际的业务场景驱动,因此数据库技术发展较为缓慢。从全球市场来看,以Microsoft、Oracle为代表的海外数据库数据库厂商仍占据绝大部分市场份额,处于绝对领导地位,根据Gartner发布的《2018年全球数据库研究报告》,全球共14家企业入选事务型数据库魔力四象限(中国仅1家入榜),19家企业入选分析型数据库魔力四象限(中国仅3家入榜),处于领导者象限的企业均为海外厂商。图表18:2018年事务型数据库魔力四象限图图表19:2018年分析型数据库魔力四象限图资料来源:《全球数据库研究报告》,Gartner(2018)、资料来源:《全球数据库研究报告》,Gartner(2018)、根据Gartner发布的《全球数据库市场份额报告2021》,微软连续两年市场占有率排名第一,2021年占全球市场份额24.0%,与2020年相比略有下降;亚马逊云科技AWS市场占有率排名上升,主要受其云数据库产品快速增长带动,2021年AWS云数据库产品同比增长42.3%,约为全球云数据库市场增长率22.3%的两倍;Oracle数据库市场占有率排名略有下降,2021年占全球市场份额20.6%,主要由于Oracle云数据库增速远低于市场增速。图表20:2017-2021年全球数据库市场份额排名变化注:绿色表示排名上升、红色表示排名下降《全球数据库市场份额报告》,Gartner(2021)、国产数据库国际影响力快速提升:1)云数据库表现优异:2019年OceanBase数据库打破数据库基准性能测试(TPC-C)世界纪录,且于2019-2021年连续三年稳居首位;2021年阿里云、华为云数据库产品分别入选Gartne《r全球云数据库魔力象限报告》领导者象限、特定领域者象限;2)非关系型数据库受国际认可:根据DB-Engines发布的数据库管理系统受欢迎程度排名,2021年2月,智臾科技DolphinDB荣登时序数据库排行第10位,2022年10月,智臾科技DolphinDB、涛思数据TDengine、阿里TSDB,依次位列时序数据库排行第9、13、35位;2021年5月,欧若数网NebulaGraph、华为云GraphBase、百度智能云HugeGraph图数据库,依次位列图数据库排行第15、28、30名。
10图表21:国产非关系型数据库受国际认可(以时序数据库为例)注:图中红圈中数字为数据库的流行程度排名DB-Engines、数据库产品包含开源数据库、商业数据库两种商业模式。其中,商业数据库收费方式主要有两种:1)本地部署:本地部署的商业数据库,一般采用License订阅方式收费,一般按用户数或者按CPU数定价,按年订阅,以Oracle为典型代表;2)公有云部署:公有云部署的商业数据库,除了License收费还可采用SaaS收费方式,用户可按用量付费,按年/季度/月收费,以Snowflake为典型代表;开源数据库供用户免费使用,主要商业模式包括三种:1)完全开源式:借助基金会完全托管,以HBase为典型代表;2)开源版本和商业版本分别运营:通过运营开源版本社区积累人才、应用场景、市场品牌等,再通过售卖商业版本获取利润,以TiDB为典型代表;3)先开源后闭源:运作前期通过开源社区优化产品与品牌,之后停止社区的维护将产品闭源商业化,以Neo4j为典型代表。图表22:数据库商业模式:开源数据库、商业数据库Oracle官网、Snowflake官网、《数据库发展研究报告》,中国信通院(2021)、
11国产数据库:产业机遇明朗,国产品牌迅速成长国产数据库迎来产业黄金期,国产空间广阔。国产数据库产业黄金期加速到来,主要受三方面因素影响:1)数据库广泛开源:全球数据库开源趋势明显,据DB-Engines数据显示,2021年1月起开源数据库流行程度反超商业数据库,数据库开源为国产数据库发展提供了良好的技术生态;2)国产化替代逐步推进:国产数据库作为信创的关键环节,随国产化替代深入推进而受到高度重视,产品、技术均实现快速发展;3)云数据库日益兴起:从全球数据库部署占比来看,云数据库产业趋势明朗,受益于高人口基数与应用软件繁荣带来场景红利,国产云数据库爆发巨大的产品优势。根据艾瑞咨询发布的《中国数据库行业研究报告》,2020年国产数据库占全国市场47%,仅存量市场的替换空间已超130亿。图表23:关系型数据库本地/公有云部署占比对比图表24:2021年1月开源数据库流行度反超商业数据库中国(2020)美国(2020)全球(2020)中国(2025)美国(2025)全球(2025)0.00%20.00%40.00%60.00%80.00%100.00%传统部署模式公有云70%商业数据库系统开源数据库系统65%60%55%50%45%40%35%13-0113-0714-0114-0715-0115-0716-0116-0717-0117-0718-0118-0719-0119-0720-0120-0721-0121-0722-0122-0730%资料来源:IDC、资料来源:DB-Engines、技术沉淀叠加信创需求,国产数据库迎来黄金发展期国产数据库发展顺应国家需求,国产加速产业发展。1995年,国家邮电部提出开发和建设“市内电话业务计算机综合管理系统”,即“九七工程”,在此背景下,国内第一批数据库企业开始发展,早期国内数据库行业高度依赖大学以及国家政府机关,主要用来满足国家部门的使用需求。2009年以前,国内银行以及企业高度依赖IMB、Oracle等海外厂商研发的数据库系统,单方向的技术依赖使国内厂商处于被动态势。2013年,棱镜门事件爆发,信息安全的自主可控成为国家需求,国内企业积极响应国家需求,自主研发数据库系统。国产数据库作为国产化替代的重要环节,在我国信创产业政策的指引下实现加速发展。图表25:国产数据库是国产化替代的关键环节《国产数据库的崛起》,赵伟(2020)、
12总体来看,国产数据库的发展历程大致可分为三个阶段:1)海外垄断期(1978-2000年):SQL体系初建立,美国三巨头(Oracle,MySQL,SQLServer)相继初露峥嵘,并逐步统治全球市场。1977年国内召开第一次数据库年会,改革开放引领浪潮,积极引入国外技术,以三大巨头为代表的海外数据库于90年代席卷中国;2)国产萌芽期(2000-2009年):“十五”计划期间,国家863计划设立“数据库重大专项”,国内研究所与大学积极投入数据库研究,IT社区逐步兴起;1999年,中国首个数据库“人大金仓KingbaseES数据库系统”诞生,随后武汉达梦数据库、神通数据库系统等国产数据库系统相继面世,打破了Oracle、IBM的市场垄断格局;3)快速发展期(2009年至今):2009年,阿里巴巴成立阿里云,开始研发自己的数据库产品AliSQL;随后,华为、腾讯等企业相继加入自主研发队伍,推出自有数据库产品;云计算时代与开源社区的兴起,国产数据库实现弯道超车,基于NoSQL等新技术的数据库产品加速面世。2019年,国外厂商神话被打破,蚂蚁集团的OceanBase数据库成功登顶世界上最权威的数据库评测机构TPC(国际事务处理性能委员会)排行榜榜首。国产数据库逊于海外数据库已成为过往,国产自研数据库进入百花齐放阶段,近年来随着国产化替代深入推进,软件厂商、集成商、运营商纷纷入局数据库市场,我国数据库产业加速发展。图表26:我国数据库行业发展大事节点梳理1982萨师煊起草了中国第一个计算机专业课本“数据库系统概论”课程的教学大纲时间内容1989Oracle进军中国,将Oracle的中文名注册为“甲骨文”1985第一代学生将数据库技术应用在国防,军工等领域,成为国家科技成果的奠基者1995邮电部电信总局下发了一系列技术和业务规范,要求全国县以上的邮电局在1997年底前实施“九七工程”1997Oracle顺利地拿下东三省邮电管理局5期工程的大单,中国的第一代DBA诞生,他们绝大多数都已经是中国电信行业的元老级人物1999数据库社区兴起,成为主要技术知识获取手段1998中国数据库的行业格局开始形成:金融行业使用IBMDB2数据库、Informix数据库,电信行业使用Oracle数据库2000互联网行业兴起,Oracle数据库的一个致命缺点“贵”开始暴露,美国的雅虎公司率先开始使用MySQL数据库,让MySQL几乎成为互联网场景标配2004随着淘宝、支付宝和阿里巴巴B2B的用户数激增,阿里巴巴最终选择放弃Oracle,使用开源的MySQL2009去IOE兴起,IBM、Oracle和EMC逐渐被替换为PCSever、MySQL和中低端存储MySQL在国内的互联网公司逐步取代Oracle地位——许多技术在浪潮中成长,诸多企业也成为MySQL开源贡献者,百度、腾讯、阿里巴巴、新浪微博、2011小米、网易等都开始使用MySQL2013在棱镜门事件曝光后,公众视野以外的国产数据库开始被人认知,武汉达梦、人大金仓、南大通用等一批国产数据库获得广泛关注,这些数据库多应用于央企、国家财政、军事等专用领域2014除了MySQL以外,PostgreSQL、Redis、MongoDB和HBase等开源数据库也开始活跃起来,在各大数据库大会和社群中助力中国数据库发展2015阿里巴巴和蚂蚁金服自研了金融数据库OceanBase2017阿里云公布国内首个自研企业级关系型云数据库PolarDB技术框架,在降低成本的同时,大大提高了性能,中国数据库开始进入世界一流行列2019华为推出分布式数据库GaussDB,腾讯TDSQL在张家港农商银行新一代核心业务系统上线,OceanBase数据库成功登顶世界上最权威的数据库评测机构TPC(国际事务处理性能委员会)排行榜榜首2021OceanBase正式开源,阿里云宣布“阿里云数据库开源计划”并率先开源了PolarDBforPostgreSQL分布式版,人大金仓成功替代Oracle数据库助力国家能源集团186个新能源场站新集控系统上线华为GaussDB在浙江移动核心系统成功商用,华为openGauss正式亮相,源代码开放、社区成立,OceanBase数据库在TPC-C基准测试中打破由自己2020保持的世界纪录,事务处理性能由上次测试的6088万tpmC提升到7亿tpmC国际研究机构Gartner发布2021年全球云数据库魔力象限报告:《MagicQuadrantforCloudDatabaseManagementSystems》,华为云凭借GaussDB系2022列数据库产品入选魔力象限的特定领域者,成为亚洲唯二入选的云厂商《国产数据库的崛起》,赵伟(2020)、
13经过多年技术研发和经验积累,国产数据库市场份额逐年提升。以人大金仓、南大通用、神舟通用为代表的国产数据库厂商自1999创建以来不断发力,逐步打破了海外厂商的垄断局面,同时数据库初创厂商、云厂商等也加速发力,快速替换海外数据库厂商的市场份额。根据智研咨询数据显示,国产数据库企业的市场占比已从2009年的4.19%提升至2017年的16.64%;根据艾瑞咨询发布的《中国数据库行业研究报告》,2020年国产数据库市场占比已提升至47.4%,其中传统数据库厂商占比7.1%,国产云数据库等新兴厂商占比40.3%。根据IDC发布的《2021年上半年中国关系型数据库软件市场跟踪报告》,在传统部署模式市场中,华为、阿里、达梦数据、人大金仓的市占率分别为14.7%、5.7%、5.7%、5.0%,在公有云部署模式市场中,阿里、腾讯、华为的市占率分别为44.7%、17.4%、7.4%。图表27:2021H1中国本地部署关系型数据库市场份额图表28:2021H1中国公有云部署关系型数据库市场份额Kingbase5%Dameng6%AlibabaGroup6%7%IBM7%Microsoft7%Others20%Huawei15%Oracle27%AmazonWebServices14%Huawei7%Tencent17%Oracle4%Others13%AlibabaGroup45%资料来源:IDC、资料来源:IDC、图表29:2009-2017年国产数据库市场份额占比逐年提升(亿元)国产数据库国外数据库国产占比16.64%14.16%11.71%10.27%8.73%7.16%6.03%5.01%4.19%1201008060402018%16%14%12%10%8%6%4%2%0200920102011201220132014201520160%2017智研咨询、关系型数据库占主流地位,市场竞争格局初显国产数据库参与厂商包括传统厂商、初创厂商、云厂商和跨界厂商四类。1)传统厂商:以达梦数据、人大金仓、南大通用等企业为代表的传统数据库厂商,是我国最早参与数据库研发、应用的企业,在数据库领域具有深厚的技术沉淀;2)初创厂商:以巨杉、PingCAP、偶数科技、星环科技等企业为代表的初创厂商,依托于新兴的数据库技术与需求,近年来实现蓬勃发展;3)云厂商:以阿里巴巴、腾讯等企业为代表的云数据库厂商,得益于互联网业务和开源技术的快速发展,积极搭建自研云数据库平台,迅速占领云数据库市场份额;4)跨界厂商:以中兴、浪潮等企业为代表的跨界厂商,积极布局企业级数据库市场。
14图表30:国产数据库产业图谱《中国数据库行业研究报告》,艾瑞咨询(2021)、根据源代码来源不同,国产数据库代码来源可分为三大类:1)基于开源代码研发:MySQL系的巨杉数据库、阿里云数据库,PostgreSQL系的华为Gauss数据库;2)收购商业源码+自研:南大通用收购IBM的Informix数据库源码;3)独立自研:以武汉达梦数据库为典型代表。图表31:国产数据库技术溯源人大金仓官网、关系型数据库占主流,多基于MySQL和PostgreSQL二次开发而来。关系数据库作为传统数据库产品,诞生时间早于非关系型数据库,产品体系更加成熟,在我国数据库市场中占据主流地位。1)从数据库数量来看:根据中国信通院发布的《数据库发展研究报告》,截至2021年6月,我国数据库产品共有135款,其中关系型数据库81个,占比60%,非关系型数据库54个,占比40%;关系型数据库中基于开源数据库MySQL和PostgreSQL进行二次开发的个数分别为23和24个,分别占关系型数据库比例为28.40%和29.63%,合计占比为58.03%。2)从市场份额来看:根据艾瑞咨询发布的《中国数据库行业研究报告》,关系型数据库市场份额占比约为90%,非关系数据库市场份额仅约为10%。
15图表32:关系型数据库为国产数据库主流产品关系型数据库81键值数据库1列存数据库13非关系型数据库54文档数据库28图数数据库3全文检索数据库非关系数据库不详54《数据库发展研究报告》,中国信通院(2021)、云数据库产品优势逐步显现,国产厂商掌握场景红利。国产云数据库厂商的快速发展主要获益于我国的互联网场景红利,过去十年互联网及移动互联网在中国快速发展,国产厂商享受了高人口基数与丰富软件应用场景带来的场景红利,积极开拓面向海量、高并发数据的云数据库产品,并凭借产品优势与本土化业务理解迅速占领国内市场。根据IDC发布的《2021H2中国关系型数据库软件市场跟踪报告》,2021H2公有云关系型数据库规模为8.7亿美元,国产云数据厂商的市场份额合计占比超68%,国产厂商(阿里、腾讯、华为)分别位居前五名中的第1、2、4位,其中阿里处于绝对龙头位置,占总体市场份额的42.5%。图表33:2021H2中国公有云部署关系型数据库市场份额图表34:国产数据库厂商掌握场景红利Kingbase5%Dameng6%AlibabaGroup6%7%Others20%Oracle27%IBM7%Microsoft7%Huawei15%资料来源:IDC、资料来源:《2021年中国分布式数据库市场报告》,沙利文(2021)、初创厂商不断涌现,数据库产业体系日益完善国产厂商多处在发展初期,具备较大成长空间。与老牌海外数据库厂商50余年的发展历史相比,多数国产数据库厂商的成立时长在10年以内,根据中国信通院发布的《数据库发展研究报告》,2013-2017年成立的数据库厂商数量占国内厂商总数比重近50%。由于多数国产数据库厂商成立年限较短,因此在人才储备与技术积累等方面,仍与海外厂商存在较大差距。根据中国信通院发布的《数据库发展研究报告》,员工人数小于300的国产数据库企业占比高达84%(Oracle员工13,700名),专利数量小于50的国产数据库企业占比高达77%(Oracle专利1.4万个),大部分厂商仍然拥有较大的成长空间。
16图表35:1999-2020年国产数据库厂商成立数量(个)129766555433222221111114121086420199920002002200320042005200620072008200920102011201220132014201520162017201820192020《数据库发展研究报告》,中国信通院(2021)、图表36:2021年国产数据库厂商专利数量分布图表37:2021年国产数据库厂商员工数量分布(个)411110464224540353025201510500-45-1011-2021-5051-100101-200201-300301-500(个)341210101244124035302520151055-1011-2021-5051-100101-200201-300301-500501-800801-10001001-15000资料来源:《数据库发展研究报告》,中国信通院(2021)、资料来源:《数据库发展研究报告》,中国信通院(2021)、初创厂商多基于新兴数据库技术,关注非关系型数据库细分赛道。2015-2018年大批初创数据库厂商成立,包括费马科技、创邻科技、欧若数网、蜀天梦图等图数据库厂商以及浙江智臾、涛思数据等时序数据库厂商。据艾瑞咨询统计,2015年前后成立大部分初创厂商均采用NewSQL、SQLonHadoop、NoSQL等新技术架构,主要原因在于新技术架构尚处于发展阶段,同时更符合互联网、金融、物联网等应用场景的业务需求,为初创厂商实现新场景下的“弯道超车”提供了更大的可能。初创厂商纷纷涌入非关系型数据库细分赛道,有望带动基于新技术架构的非关系数据库快速发展,据艾瑞咨询预测,2020-2025年以初创厂商为代表的新兴数据库市场规模有望实现高于10倍的增长。国产数据库的支撑体系不断完善。数据库支撑体系包括学术组织、行业支撑组织、人才培训体系三大类:1)学术组织支撑:主要包括高校、企业的学术理论研究,以及相关论文在学术领域的学术影响;2)行业支撑组织:主要包括具备官方背景的研究组织、数据库从业人员牵头发起的用户组织、由数据库企业组建的官方技术社区、汇聚数据库整体行业信息的第三方技术社区等;3)人才培训体系:主要包括高校教育培训、专业机构培训以及企业培训。
17图表38:国产数据库支撑体系日益完善资料来源:《中国分布式数据库市场研究报告》,沙利文(2021)、学术研究与行业发展齐头并进,学术影响逐步提升。2016年-2020年,我国成为世界第二大数据库领域论文产出国,发文量为1,141篇,占全球总发文量22.4,仅次于美国的1,319篇。学术界主要有以VLDB、ICDE、SIGMOD为首的数据库领域顶级会议,高校及企业在三大会议每年贡献占比平均为22.14%、23.74%和23.81%,占比逐年上升,研究方向多以图数据库、数据挖掘、机器学习、查询处理等为主。阿里巴巴、华为、腾讯、蚂蚁金服、等企业和清华大学、香港科技大学、北京大学、香港中文大学、香港大学、浙江大学等高校论文纷纷入选三大顶会,显示我国数据库学术水平国际影响力不断扩大。图表39:2018-2020年中国高校及企业学术会议论文贡献情况43.15%37.31%28.19%23.80%21.11%17.12%13.68%14.58%10.11%VLDBSIGMOD2018ICDEVLDBSIGMOD2019ICDEVLDBSIGMOD2020ICDE50%45%40%35%30%25%20%15%10%5%0%中国高校及企业论文贡献占比线性(每年平均贡献占比)资料来源:《数据库发展研究报告》,中国信通院(2021)、国内厂商重视人才培养,加快人才培训体系建立。数据库厂商积极搭建官方社区、开源社区、第三方数据库,与全国开发者积极进行技术讨论与交流,加快技术发展,如阿里云开发者社区、PostgreSQL中文社区、墨天轮等。同时企业厂商积极建立培训机构与认证体系,加强与院校的交流,办理不同的培训课程与证书考试,为我国数据行业培养相关储备人才。
18数据库开源实现人才积累,贡献长效技术动力。数据库开源对于实现人才积累、生态拓展、产品技术迭代具有重要意义,2014年12月,巨杉数据库SequoiaDB正式开源,成为国内最早的开源自研数据库项目,此后PingCAPTiDB、百度Roris和HugeGraph、华为Gauss、蚂蚁集团OceanBase等国产数据库纷纷拥抱开源,积极构建开源生态社区,实现了数据库开发人才的快速积累。据Github发布的《2021年度开发者报告》显示,中国作为全球第二大开发者来源(755万开发者,占比9.76%)正在快速成长,据Github预测,中国有望于2030年超越美国,成为全球最大的开发者来源。各路资本积极入局,国产数据库市场空间广阔各路资本纷纷注入数据库产业,产业态势明朗。根据中国信通院统计,自2013年至2021上半年,数据库企业累计完成融资约42次,单年融资企业次数呈现明显的上涨趋势。根据沙利文发布的《2021年中国分布式数据库》报告,2021年是国产数据库投融资最活跃的一年,2021年获得新一轮融资的企业就多达20家,千万级甚至上亿级融资数量在14轮以上,其中偶数科技完成B+轮融资2亿元,四维纵横完成A轮融资1亿元,智臾科技完成B轮融资1亿元。国产数据库的投资方包括红杉、高瓴、经纬、云启、明势等众多知名投资机构,国产自研数据库产业趋势明朗,有望在资本注入下实现强劲增长。图表40:2013-2021H1数据库企业融资次数呈增长趋势(次)151312108741816141210864201717201320142015201620172018201920202021H1资料来源:《数据库发展研究报告》,中国信通院(2021)、据中国信通院预测,中国数据库市场2020-2025年复合增长率将高达23.35%,2025年市场规模有望达到688亿元,考虑到目前国产数据库市占率仍处于较低水平(2020年国产数据库市场占比不足50%),未来随我国数据库市场规模扩大与国产数据库替代加速,国产数据库有望同步扩大存量与增量市场,国产数据库市场空间前景广阔。图表41:2020-2025年中国数据库市场规模CAGR达23.35%亿元)中国数据库市场规模增长率688611493368309241(80040%70035%60030%50025%40020%30015%20010%1005%020202021E2022E2023E2024E0%2025E资料来源:《数据库发展研究报告》,中国信通院(2021)、
19厂商梳理:海外厂商、国产厂商各具优势观点一:海外厂商向云化方向深度迈进,SaaS模式助推新兴厂商加速发展分布式云数据库成为海外厂商的发展共识。通过总结Oracle、Microsoft、、MongoDB等海外传统数据库厂商以及AWS、Snowflake、databricks等新兴云数据库厂商的发展路径、技术演进以及现有产品体系,可以看到分布式云数据库已成为海外厂商的发展共识,各类云托管、云原生数据库不断面世,加速数据库产品云化转型。传统数据库厂商基于原有业务优势,以云托管数据库为主要发展方向,支持数据库产品在公有云、私有云、混合云环境下部署;新兴厂商多选取云原生路线,Snowflake、databricks等厂商更是推出专门面向公有云环境的数据仓(分析型数据库)服务,SaaS模式助力新兴厂商业绩高增,以Snowflake为例,截至2022年7月31日,公司年化付费超百万的客户为246个,同比增长112%。观点二:开源、分布式两大技术趋势下,国产数据库有望弯道超车开源构建数据库产业正反馈循环,主流数据库产品陆续拥抱开源。数据库开源旨在通过开放核心代码,运营开源社区以实现多方共赢,1)对于社区开发者来说,开源数据库提供免费的数据库产品,成本优势突出;2)对于数据库厂商来,通过开源社区可快速获得产品反馈,加快产品开发、提升产品质量;3)对于生态伙伴来说,开源产品的生态影响力更强,可以更好地实现产品兼容。通过梳理国产数据库厂商的发展历程,可以看到众多国产厂商最早都基于开源数据库构建底层代码,同时近年来主流数据库产品纷纷拥抱开源,以加速产品技术升级,构建友好的数据库生态。典型代表有巨杉数据库SequoiaDB、华为Gauss数据库、阿里云PolarDBforPostgreSQL数据库、蚂蚁集团OceanBase数据库。图表42:国产数据库厂商陆续拥抱开源资料来源:《数据库发展研究报告》,中国信通院(2021)、分布式数据库时代加速到来,国产厂商加速分布式产品布局。分布式数据库可有效解决现有互联网环境下海量数据、高并发计算的数据需求,成为国产数据库厂商的产品发展共识。传统国产数据库厂商重点关注分布式关系型数据库,主要选择分库分表+中间件、原生分布式两类技术路线;新兴国产数据库厂商广泛布局分布式关系型数据库、NoSQL数据库、NewSQL数据库等多类型分布式数据库,大量非关系型数据库厂商实现弯道超车。海外厂商:云数据库是主要方向,传统龙头与新兴厂商并驾齐驱根据DB-Engines发布的数据库流行度最新排行(2022年10月),全球数据库排名前五名依次为:Oracle、MySQL、MicrosoftSQLServer、PostgreSQL、MongoDB,新兴数据库厂商Snowflake、Databricks分别位列13、20名。我们选取关系型数据库代表Oracle、MicrosoftSQLServer,NoSQL数据库代表MongoDB,内存数据库代表,云数据库代表AWS、Snowflake、Databricks作为范例,对海外数据库厂商的发展历程及现有产品体系进行了详细梳理。
20图表43:全球数据库流行程度排行榜(截至2022年10月)DB-Engines、Oracle:传统数据库龙头,加速云数据库转型Oracle的数据库产品是公司的起家业务,技术积淀深厚。Oracle的数据库业务发展历程,与全球数据库发展历史交织在一起,也与Oracle整个公司的发展绑定在一起。Oracle的数据库产品包括两种:1)Oracle自有数据库产品OracleDatabase;2)MySQL:2008年Sun以10亿美元收购MySQL,2009年,Oracle以74亿美元收购Sun。图表44:Oracle数据库产品体系Oracle官网、随着IT架构、终端设备形态的不断变化和迁移,Oracle的数据库产品也在不断更新迭代。从Oracle数据库产品服务的计算载体的形态来看,经历了小型机与大型机、客户机/服务器(PC与服务器)、互联网架构/瘦客户端、数据库云/大数据四个阶段。目前Oracle的数据产品已经更新到21c。从以往Oracle更新的版本来看,我们可以将其划分为几个不同时代:
21图表45:Oracle数据库向云数据库方向演进Oracle官网、阶段一:Oracle9i之前,支持传统的C-S架构Oracle的数据库产品主要解决的是数据库的高可靠性问题(注:衡量数据库产品的核心指标在于五个方面:高可用性(HighAvailability)、高性能(HighPerformance)、高可管理(HighManageability)、高安全(HighSecurityAbility)、高数据服务能力(HighDataServiceAbility)五个领域)。Oracle数据库核心优势在于高效、安全、稳定等。阶段二:9i-12c,支持互联网计算环境从Oracle9i开始,Oracle引入新的技术OracleRAC,RAC是指realapplicationclusters,译为“实时应用集群”。RAC是Oracle新版数据库中采用的一项新技术,是高可用性的一种,也是Oracle数据库支持网格计算环境的核心技术。用来在集群环境下,实现多机共享数据库,以保证应用的高可用性。同时可以自动实现并行处理及负载均衡,并能实现数据库在故障时的容错和无断点恢复。它是Oracle数据库支持网络计算环境的核心技术。OracleRAC主要支持Oracle9i、10g、11g、12c版本,可以支持24x7有效的数据库应用系统,在低成本服务器上构建高可用性数据库系统,并且自由部署应用,无需修改代码。从Oracle12c开始,Oracle逐步开始推出Options产品线,推动企业数据中心的整合、数据集中和网格计算的发展,强化了数据的高可靠性,提升了数据库对云计算需求的应对能力:1)Exadata数据库一体机和内存选件(In-memoryOption)的推出,用来提高性能、简化架构,提高数据库的速度;2)Oracle12c的多租户和DBaaS则让数据库混合云成为可能,客户可以在不同云环境中进行切换。图表46:OracleRAC架构Oracle官网、
22阶段三:12c之后,支持云计算环境,进入自治时代Oracle12c引入了CDB与PDB的新特性。在Oracle12c数据库引入的多租用户环境(MultitenantEnvironment)中,允许一个数据库容器(ContainerDatabase,CDB)承载多个可插拔数据库(PluggableDatabase,PDB)。在Oracle12c之前,实例与数据库是一对一或多对一关系(RAC):即一个实例只能与一个数据库相关联,数据库可以被多个实例所加载,而实例与数据库不可能是一对多的关系,当进入Oracle12c后,实例与数据库可以是一对多的关系。Oracle21c是Oracle最新一代数据库,致力于实现可部署在本地和云端的单一融合数据库。Oracle从19c开始就致力于提供全球唯一可运行在本地和云端的融合数据库,可支持使用包括JSON、图、XML等在内的任何数据类型。同时,用户不必再为不同的工作负载而创建不同的数据库,可以在同一个数据库中运行交易型负载、分析型负载、物联网、区块链等,大大减轻DBA的工作负担,降低维护成本,进一步减少故障点,从而保证数据库系统安全平稳运行。图表47:Oracle以构建单一融合数据库为产品目标Oracle官网、Oracle21c在技术方面也有多项创新。1)支持持久化内存,提供微秒级I/O响应:在21c当中,在非Exadata环境下同样支持将数据和redo保存在本地的持久化内存当中,从而消除I/O瓶颈;2)In-Memory支持混合查询:在19c之前数据如果分布在列存储区和行存储区,将无法使用In-Memory特性,21c支持混合查询,查询性能提升超10倍;3)Sharding增强:21c能从多个现有数据库创建分片数据库,能够运行跨分片查询的联邦数据库。Microsoft:兼顾本地、云端两大数据库应用场景Microsoft数据库产品多为关系型数据库。Microsoft于1988年推出MicrosoftSQLServer,为企业提供商业数据管理;1992年推出MicrosoftAccess,为软件设计师与分析师提供便捷的应用开发软件;2010年推出MicrosoftAzure,为用户提供云端数据库服务,以上三款产品皆使用关系型数据库模型。MicrosoftSQLServer历经多年迭代,目前包括本地、云端两大产品类别。MicrosoftSQLServer的发展大致可分为三个阶段:1)合作创始初期(1988-1995年):SQLServer最早由Microsoft、Sybase、Ashton-Tate三家公司共同开发,最早于1988年推出了OS/2版本;随后Aston-Tate退出,1992年Microsoft与Sybase共同开发了基于Windows系统的SQLServer,但在SQLServer4后Microsoft与Sybase分道扬镳,于1995年独立完成SQLServer6.0版本的开发;
231)独立发展期(1995-2010年):自MicrosoftSQLServer6.0发布后,SQLServer产品进入以Microsoft为单一研发主体的独立发展期,随后相继发布SQLServer7.0、SQLServer2000、SQLServer2005等多个版本;其中,2008年发布的SQLServer2008新增了数据压缩、资源调控、备份压缩等功能,保护了数据库查询、减少了管理操作所需时间、增加了稳定性、增强了系统性能优化以及预测功能等,使其成为了至今为止最强大和全面的SQLServer版本;2)云化转型期(2010年至今):早在2008年Microsoft专业开发人员大会上,Microsoft当时的首席软件架构师RayOzzie就宣布推出新云计算操作系统MicrosoftAzure,并推出Azure服务平台关键组件之一是MicrosoftSQL服务;2010年以SQLServer2008为基底的云数据库SQLAzure正式面世,后改名为AzureSQL,旨在作为Azure云计算平台的一部分提供的云数据库产品/服务。图表48:MicrosoftSQLServer产品发展梳理(2008-2019年)资料来源:Microsoft官网、总体来看,MicrosoftSQLServer作为一个全面的数据库管理平台,为用户提供了企业级的数据管理,拥有较好的伸缩性与集成度高等优点,主要包括:1)本地部署SQLServer系列;2)私有云部署SQLServerPrivateCloud系列;4)公有云部署AzureSQL系列:AzureSQLDatabase、AzureSQLManagedInstance、SQLServeronAzureVM;其中,AzureSQLDatabase支持大多数本地数据库级功能,提供最常用的SQLServer功能;AzureSQLManagedInstance几乎支持所有的本地实例级和数据库级功能,与SQLServer高度兼容,适合用于大部分云迁移方案;SQLServeronAzureVM能够轻松直接迁移SQLServer工作负载,保持100%的SQLServer兼容性和操作系统级别的访问权限。根据Gartner发布的《2021年数据库市场份额》,Microsoft数据库市场份额为24.0%,位居全球第一,其中云数据库产品收入增长率为39.5%,带动公司数据库产品整体增长率推高至20.9%,略低于市场22.3%的增长率。
24图表49:MicrosoftSQLServer产品体系Microsoft官网、MongoDB:NoSQL典型代表,提供文档型数据库服务MongoDB旨在为Web应用提供可扩展的高性能数据存储解决。MongoDB于2007年成立,是文档型的NoSQL数据库,数据以文档的形式在MongoDB中保存,它使用BJON作为数据格式,拥有轻量级、可遍历性、高效性三大特点,有效应对了传统关系型数据库在面临高读写、高存储、高扩展性与可用性的挑战。MongoDB支持Java、Python、C++等多类型语言,数据从MongoDB中读取出来后,可无需转换直接使用,适用于数据量大,读写操作频繁、数据价值低且对事务要求不高的场景。MongoDB支持在公有云、本地和混合云环境中大规模部署,2019年最新发布的MongoDB4.2.0开始支持分布式事务。图表50:MongoDB数据库产品发展梳理2009MongoDB社区服务器0.9版本发布时间内容20125月MongoDB2.1开发分支发布;6月MongoDB2.0.6发布;开始提供全天候(24×365)的技术支持2011推出Mongo第一个云管理工具2013MongoDB2.4.3、MongoDB2.4.6、MongoDB2.4.8相继发布;推出第一个商业版本的MongoDB企业数据库服务器2014收购WiredTiger存储引擎,扩大应用数据平台的广度2015推出MongoDBCompass图形化用户界面;提供分析工具的集成功能,包括提供BI连接器2016推出云数据库DBaaS产品——MongoDBAtlas,并发布了平台的最新版本2017MongoDB3.0.1发布;客户超4000并将MongoDBAtlas扩展到三大公有云提供商,为客户提供多种部署选项,以避免供应商锁定2018MongoDB4.0.2发布,支持多文档事务2019MongoDB4.2.0发布,引入分布式事务资料来源:MongoDB招股说明书、MongoDB遵从开源协议提供商业数据库产品。MongoDB产品体系主要由企业级数据库产品MongoDBEnterpriseAdvanced、云数据库MongoDBAltas、开源数据库CommunityServer、移动数据库MongoDBRealm。1)MongoDBEnterpriseAdvanced:为企业级数据库平台,包括商业数据库服务器、企业级管理工具、图形用户界面、分析工具集成等功能;2)MongoDBAltas:为完全托管的云数据库产品,包括全面系统监控、托管备份、恢复等功能;3)CommunityServer:为免费下载的开源版本;4)MongoDBRealm:为用于数据密集型网页的移动数据库,可借助RealmSync实现边缘设备数据到后端云数据库的无缝同步。
25图表51:MongoDB数据库产品体系架构资料来源:MongoDB官网、:专注企业业务流程管理,提供内存数据库产品作为业务流程管理软件供应商,致力于实现企业数据的高效治理。成立于1972年,最初称为SystemAnalysisProgramDevelopment,后来缩写为。总部位于德国,在全球拥有10万多名员工,业务范围遍布130多个国家,拥有超过2.3亿云用户。公司2010年发布的HANA(Hight-PerformanceAnalyticApplicance)Cloud产品,作为统一的数据库即服务(DBaaS)平台,支持针对所有企业数据的现代应用和分析工具,在扩展性、速度与性能上为用户提供极佳的体验。HANA组件包括:1)名称服务器(NameServer):将信息传播到其他组件上;2)预处理服务器(Preprocessor):用于文本数据分析;3)统计服务器(StatisticsServer):用于检查和分析HANA所有组件的运行状况;4)XS服务器(XSServer):用于帮助外部Java和HTML的应用程序访问HANA系统;5)索引服务器(IndexServer):用于处理数据库查询语句的SQL/MDX处理器,它将所有查询请求分段,并将它们引导到正确的引擎以进行性能优化。图表52:HANA数据库架构官网、HANA性能优越,支持企业预置型部署和云部署两种模式。HANA数据库作为内存数据库在支持任务关键型应用和分析、优化业务流程等方面具有突出优势:1)具备实时数据库性能,无需复制数据,即可同时进行事务处理和分析处理;2)依靠内存数据库结构构建并运行PB级的高性能事务处理应用和实时分析应用,可及时获取所需业务数据;3)整合关系、图形、空间、文档存储和其他功能,可无缝整合多模数据。
26HANA数据库服务客户众多,包括Costain、Mirgor、NHL等多类型企业。以Costain为例,借助HANA的数据虚拟化功能,公司的IT基础架构成本降低66%,以机器闲置时间衡量,机器使用效率提高30%。图表53:HANA数据库典型客户案例官网、AWS:把握分布式浪潮,提供多类型云数据库产品AWS(AmazonWebService)把握分布式数据库浪潮,带动云数据库产品快速发展。AWS是全球云服务的先行者,产品覆盖了弹性计算、储存、分析、开发、网络安全、数据库等多个200多个方向,业务覆盖全世界245个国家。AWS云数据库拥有一系列全面的数据库管理服务,包括针对运营用例、分析用例、图数据处理、键值以及分类账等,致力于为用户提供适应多场景的专用云数据库产品。AWS数据库产品多为单一用途的专用云数据库,并为用户提供云迁移服务。根据数据库类型的不同,AWS云数据库产品分为八大类:1)关系型数据库:AmazonAurora(高性能托管式关系数据库)、AmazonRDS、AmazonRedShift(经济高效的数据仓库);2)键值型数据库:AmazonDynamoDB(托管式NoSQL数据库);3)内存数据库:AmazonElastiCache(内存中缓存服务)、AmazonMemoryDBforRedis(与Redis兼容且持久的内存数据库);4)文档数据库:AmazonDocumentDB;5)列族数据库:AmazonKeyspaces(兼容Cassandra);6)图数据库:AmazonNeptune;7)时序数据库AmazonTimestrea;8)账本数据库:AmazonLedgerDatabaseServices(QLDB)。图表54:AWS数据库产品体系及主要应用场景资料来源:AWS官网、
27AmazonAurora是AWS关系型云数据库的典型代表,兼容MySQL与PostgreSQL。AmazonAurora是AWS从2014年开始开发并提供的云原生关系型数据库,专门面向云计算场景,实现了传统企业数据库的性能、可用性与开源数据库的简单性、成本效益的有机融合,可与MySQL和PostgreSQL完全兼容。AmazonAurora作为高性能数据库,兼具高性能和高可扩展性、高可用性和持久性、高度安全、完全托管等重要特性,服务三星Samsung、Halliburton、任天堂Nintendo、A+ENetworks等多类型客户。图表55:AmazonAurora数据库产品特性及工作原理AWS官网、以三星Samsung为例,由于认证和授权服务的用户数量激增至11亿以上,三星决定将横跨三大洲的11亿用户从传统的Oracle数据库迁移至云数据库,AmazonAurora凭借其兼容性与高性能优势,成为三星的最终选择。2019年4月三星完成欧盟区域迁移,2019年10月完成中国区域迁移,2020年3月完成美国区域迁移,迁移至云原生的AmazonAurora数据库后,三星运维成本大幅降低,每月数据库成本降低了44%,同时可以比以前更快的速度为更多用户提供服务,90%的延迟不超过60毫秒。图表56:三星Samsung实现三大洲数据的Aurora数据库迁移AWS官网、
28Snowflake:提供数据仓库、数据湖等多种产品Snowflake满足并发性、可扩展性、易用性、平台中立性需求。公司产品完全基于公有云,提供包括数据仓库(DataWarehouse)、数据湖(DataLake)在内的多种产品,支持非结构化数据、数据可视化和分析。公司意在打造综合性的云数据平台,其数据库可在三大公有云AWS、MicrosofeAzure和GoogleCloudPlatform上部署,对于企业多云异构的复杂环境有适用性、中立性,同时亦提供数据交换功能,解决了过去用户面临的投入高、灵活度低等问题,可吸引中小型客户。据公司财报,截至2022年7月,公司有6,808个企业客户,同比增长36%,包括全球2,000强企业中的510家,环比增加12家。图表57:Snowflake数据湖产品vs数据仓库产品数据仓库数据湖查询即时且几乎无限数量的并发查询;使用外部表可以直接查询数据湖中的数据;完全兼容ANSISQL,具有对半结构化数据本机支持;支持SQL及BI和机器学习工具查询半结构化数据;数据管道支持实时扩展和可扩展的数据转换,并轻松地将数据载回数据湖;支持几乎无限数量的并发用户和查询;支持Snowpipe和Streams&Tasks自动提取数据并实现连续数据管道的数据变更捕获;ANSISQL有效地转换数据;外部功能和存储过程扩展管道;使用分区自动刷新功能从数据湖自动注册新文件;将外部表与ApacheHiveMetastore同步弹性实时放大或缩小以优化管道性能;使用各种数据类型和不同的接收样式构建弹性的数据管道;支持通过SnowflakeDataMarketplace和私人数据交换访问共享的数据并将其提供给客户和合作伙伴;跨主要公共云的单一体验;跨云数据复制可实现无缝的全局数据访问只需几秒钟,即可配置大小从极小到6XL的计算集群,以满足需求;选择多集群计算资源以实现高并发;存储向所有数据用户提供数据的一个副本(一个真实的来源)单一的,受管理的且可立即查询的数据源;存储多类型数据,包括JSON和XML;具有2-3倍压缩的低成本云存储;数据的单个副本可随时随地使用分析支持与Snowsight数据探索,内置的可视化界面针对流行的BI和Analytics工具优化了直接连接器;通过Snowsight的内置可视化UISnowsight访问图表和SQL分析;支持BI和分析,专用计算资源;对地理空间数据和分析的本地支持安全细粒度的访问控制,例如列级屏蔽和行级过滤;实时,安全的数据共享权限管理;静态和传输中的自动数据加密;动态数据屏蔽和令牌化;利用功能实现GDPR和CCPA的合规性;SOC2类型2,ISO27001,PCI,HIPAA,FedRAMP等的认证Snowflake官网、图表58:Hadoopvssnowflakehadoopsnowflake表现可将不同类型数据存储在分布式环境中,使用MapReduce进行批处理,使用ApacheSpark进行流处理易用性存在部署、配置和维护成本;较为复杂,需要精通Linux成本开源项目,无需许可费,但部署、配置、维护费用较高数据处理批量处理在一段时间内收集的大型静态数据集,但无法用于运行交互式作业或分析虚拟仓库提供了隔离的工作负载和容量,可根据需求对工作负载进行分离或分类以及查询处理零维护数据库,由Snowflake团队完全管理无需部署,需要支付存储空间使用费用、查询数据花费支持批处理和流处理;虚拟仓库支持低延迟查询容灾HDFS分布式结构保障容灾能力具备容灾能力和内置多数据中心安全服务级别的授权;支持加密、传统的文件权限、ACL通过网络动态加密,在磁盘上静态加密,支持基于角色的授权,单点登录的两因素和联合身份验证弹性只能增加集群大小,且需要停机,难以弹性伸缩可在几毫秒内完成扩展或缩小存储与计算存储计算一体存储与计算完全分开Snowflake官网、Hadoop官网、数据仓库满足多种使用场景需求。数据仓库采取Shared-nothing架构,在节点之间不共享任何数据,此外Snowflake基于Multi-cluster,shareddata的概念,将存储和计算分离,解决了升级扩容时需要重新分配节点资源等痛点。在数据支持方面,Snowfalke支持结构化和半结构化数据的组合使用,可以接收JSON、XML或Avro格式的数据,并且支持嵌套和重复数据类型,从而满足传统数据库、Hadoop等半结构化使用场景的使用需求。
29图表59:Snowflake数据仓库架构Snowflake官网、Snowflake数据湖产品强调查询性能、数据管道集成可扩展、安全等。Snowflake数据湖产品在利用内置数据治理和安全性的同时,实现快速的数据访问,具备较好的查询性能,并且对数据转换进行了良好的支持,通过云的模式为客户省去运维成本。在查询性能方面,支持即时和几乎无限的可扩展性和并发性,此外,通过集成和可扩展的数据管道,实现简化数据管道开发以优化性能,依靠管道实时可靠地扩展来处理繁重的数据工作量和可扩展的数据转换;在安全方面,则提供了安全的数据协作功能。图表60:Snowflake数据湖架构Snowflake官网、Snowflake服务各行业客户。以hookit为例,据公司官网,Snowflake为hookit构建具有可扩展性的多集群共享数据架构数据库,提高了Hookit的运营效率。查询效率提高30倍,每天可自动评估社交帖子5亿条,数据仓库基础架构成本降低40%,消除了88%的内部支持请求,提升了客户的运行效率,使客户能够专注于产品创新。图表61:Snowflake主要服务客户Snowflake官网、
30Databricks:Lakehouse概念,帮助客户构建统一分析平台Databricks提出Lakehouse(湖仓一体)概念。Lakehouse由数据湖DataLakes与数据仓DataWarehouses融合而成。普通的数据湖在数据质量、一致性/隔离性、混合处理追加读取等方面不如数据仓库。Lakehouse兼容了数据仓库和数据湖的优势,在数据湖的低成本存储上实现数据仓库的数据结构和管理功能。Lakehouse功能包括事务支持、模式执行和治理、商务智能BI(BusinessIntelligence)支持、存储与计算分离、开放性、支持多种数据类型、各种工作负载、端到端流。图表62:Lakehouse(湖仓一体)架构演进及功能概览Databricks官网、Databricks为客户提供统一分析平台以提升效率。Databricks通过构建统一分析平台,1)可以简化跨功能团队的分析工作流程,使用单一平台查询、调试和探索流式处理和批次数据,以及构建和部署ML模型;2)打造交互式工作空间,促进与共享笔记本环境的合作,使数据科学家能够快速实时在模型上进行重复;3)简化管理,使公司无需人工干预即可完全自动化作业调度、监控和集群管理。以RB为例,Databricks为RB提供了一个统一的数据分析平台,该平台在数据科学和工程领域营造了可扩展的协作环境,使数据团队能够更快地进行创新,并为业务提供ML驱动的见解。据公司官网,该方案使得公司业务可支持量提高10倍,数据从80TB压缩到2TB,降低了运营成本,24*7个任务的数据管道性能提高2倍。图表63:Databricks主要服务客户Databricks官网、
31国产厂商:传统厂商积淀深厚,新兴厂商聚焦新兴技术根据墨天轮发布的国产数据库流行度最新排行(2022年10月),国产数据库排名前五名依次为:TiDB、OceanBase、达梦、openGauss、PolarDB。我们选取传统数据库代表武汉达梦、人大金仓,云数据库代表OceanBase,GaussDB,新兴数据库代表巨杉数据库、TiDB、星环科技KunDB作为范例,对国产数据库厂商的发展历程及现有产品体系进行了详细梳理。图表64:国产数据库流行程度排行(截至2022年10月)资料来源:墨天轮、达梦数据:背靠中国电子,主攻混合型数据库HTAP背靠CEC中国电子,主攻混合型数据库HTAP。武汉达梦成立于2000年,是中国电子信息产业集团(CEC)旗下基础软件企业,专注于为客户提供以数据库软件、集群软件、云计算、大数据平台为代表的全栈数据产品及解决方案,产品涵盖数据库、云计算、大数据三大类。在数据库领域,武汉达梦主攻混合型数据库HTAP,旨在用一种数据库模式处理客户所有数据库需求,适合业务广、数据量大的综合型客户使用,目前已掌握数据管理与数据分析领域的核心前沿技术,拥有全部源代码,具有完全自主知识产权。达梦数据库产品目前已广泛应用于金融、电力、航空、通信、电子政务等30多个行业领域。图表65:达梦数据产品体系及典型数据库产品注:云计算/大数据产品仅作部分展示资料来源:达梦数据库官网、
32达梦主推透明分布式数据库(DMTDD)技术。达梦提出的DMTDD技术包括灵活横向扩展、完整的SQL特性支持、多副本数据异地容灾的特点。结合了分布式数据库高可扩展、高可用、高并发处理能力,并支持传统数据库开发接口和业务开发框架的技术架构。(1)灵活横向扩展:DM8TDD采用计算存储分离的系统架构,实现计算、日志、存储三层分离,可实现各层独立扩展、按需配置设备的特点。(2)完整的SQL特性支持:支持多表连接查询、子查询、视图嵌套查询、递归表达式查询等高级查询语法。提供存储过程、触发器、Package、序列等高级功能特性。(3)多副本数据异地容灾:支持异地部署,通过将数据副本存储在不同的容灾域,实现数据的异地容灾;日志服务本身具备副本与容灾能力,可在每个数据中心分别部署;数据库服务在主机房按需部署,在检测到灾害时,即时启动。图表66:达梦透明分布式数据库(DMTDD)技术架构资料来源:达梦数据库官网、新一代分布式数据库DMDPC具备极致的横向扩展能力。2022年,达梦数据发布新一代分布式数据库产品DMDPC,DMDPC数据库无状态计算节点,可随数据库并发压力负载按需增加或减少节点,具备极致的横向扩展能力。同时DMDPC支持分布式事务(满足ACID规范)、数据分片的多副本容灾、多机并行协同计算,适用于HTAP场景。DMDPC架构包括三类节点:1)计划生成节点SP:对外提供分布式数据库服务,也会分配执行带有汇总性质以及不包含数据扫描操作的子任务;2)数据存储节点BP:访问数据并进行简单的过滤、投影以及分组操作;3)元数据服务器节点MP:获取SP、BP节点的数据字典信息。图表67:达梦新一代分布式数据库(DMDPC)架构资料来源:达梦数据库官网、
33新一代分布式数据库DMDPC满足金融、电网、交通、工业互联网等多场景需求。1)金融系统:DMDPC基于改进的多主机XA协议、基于分布式环境的多版本并发控制等技术,保证了分布式数据库对事务ACID规范的支持,满足金融核心业务系统对事物强一致性的需求;2)智慧电网:支持同城异地多活,可有效支持电网在全国多地的部署联网;3)智慧交通:DMDPC可实现计算资源的按需分配,弹性扩展、支持GIS地理信息存储;4)工业互联网:支持100以上的分布式节点且采用多种安全加固措施,可支撑工业互联网的数据安全需求。图表68:DMDPC满足金融、电网、交通、工业互联网多场景需求资料来源:达梦数据库官网、人大金仓:背靠CETC中国电子科技集团,老牌数据库背靠CETC中国电子科技集团,是成立最早的国产数据库企业。人大金仓背靠CETC中国电子科技集团,由中国人民大学最早一批从事数据库研究的专家于1999年发起创立,先后承担了国家“863”、“核高基”等重大专项。人大金仓专注数据库领域20余年,具备出色的数据库产品研发和服务能力,数据库产品广泛服务于电子政务、国防和军工、能源、金融、电信等60余个重点行业和关键领域,截至2021年,产品累计装机部署超百万套。图表69:人大金仓发展史资料来源:人大金仓官网、以数据存储计算为核心,提供完善的产品体系。人大金仓拥有三类核心产品,分别为数据存储计算、数据迁移交换以及数据应用分析:1)数据存储计算:包括金仓数据库管理系统KingbaseES(KES)、金仓分析型数据库KingbaseAnalyticsDB(KADB)、金仓HTAP分布式数据库KSOne;2)数据迁移交换:包括金仓数据库迁移评估系统KDMS、数据库迁移工具KDTS、金仓异构数据同步软件KFS;3)数据应用分析:包括数据开发工具KStudio、云数据库服务管控平台KRDS、数据库监控工具KMonitor。其中事务型数据库KingbaseES是入选国家自主创新产品目录的数据库产品,可满足各行业用户多种场景的数据处理需求。
34图表70:人大金仓构建以数据库为核心的产品体系资料来源:人大金仓官网、三大数据库产品各具优势,使用多类型应用场景。1)KES:KingbaseES作为人大金仓的通用型数据库产品,是一款面向大规模并发交易处理的企业级关系型数据库,严格支持ACID特性,具备迁移简单、高度容错、系统自治、兼容性好的突出优势,并提供可覆盖迁移、开发及运维管理全使用周期的智能便捷工具;2)KADB:KingbaseAnalyticsDB采用shared-nothing分布式架构,是一款具有高性能、高扩展性能力的MPP数据库产品,适用于数据仓库、决策支持、高级分析等分析类应用场景;3)KSOne:是人大金仓自主研发的HTAP分布式数据库,拥有高可靠,高安全,弹性伸缩,高效备份恢复等关键能力,可以为海量数据、海量并发用户、高负载压力、高连续性要求的业务系统提供强有力支撑。图表71:人大金仓数据库优势对比及典型应用场景资料来源:人大金仓官网、人大金仓致力于为政务、能源、国防、金融、电信等国家企事业单位提供数据解决方案。人大金仓作为国产数据库领军企业,积极推动与产业链上下游伙伴产品的兼容适配,涵盖芯片、操作系统、云平台、中间件以及上层软件应用,具备来自上下游1,300多家公司超4,000份兼容认证,全面适配国家专用项目相关产品。人大金仓在部署模式上提供线下部署与线上云适配两种形式,云联合方案覆盖主流云厂商。金仓数据库产品广泛服务于电子政务、国防和军工、能源、运营商、金融等60余个关键行业,涵盖国家电网、南方电网、中国人民银行、中国银行、中国邮政、中国移动等重点企事业单位。
35图表72:人大金仓主要应用场景及客户概览资料来源:人大金仓官网,阿里OceanBase:金融级分布式关系数据库,核心代码开源发端于阿里内部,2021年正式开源。OceanBase是由蚂蚁金服、阿里巴巴完全自主研发的分布式关系型数据库,始创于2010年,应用于支付宝全部核心业务以及阿里巴巴淘宝业务,从2017年开始,开始服务外部客户。2020年6月8日,蚂蚁集团将自研数据库产品OceanBase独立进行公司化运作,同年9月,中国工商银行开始采用蚂蚁自研数据库OceanBase,其对公(法人)理财系统已完成从大型主机到OceanBase分布式架构的改造。2021年6月,OceanBase3.0版本发布并正式开源;2022年8月,OceanBase4.0正式发布,成为业内首个单机分布式一体化数据库。图表73:OceanBase数据库发展历程OceanBase官网、OceanBase是金融级分布式关系数据库,具备在线水平扩展能力。OceanBase是一款针对特殊巨型复杂网络、超大实时更新数据场景的分布式实时数据库产品,拥有简单易用、性能高的特点。该产品定位是一款分布式关系数据库,适合于金融、证券等涉及交易、支付和账务等对高可用、强一致要求较高,同时对性能、成本和扩展性有需求的金融属性场景,以及各种关系型结构化存储的OLTP应用。
36图表74:OceanBase典型架构OceanBase官网、OceanBase产品体系涵盖四大类:1)分布式数据库:包括社区版、企业版、公有云三大版本,社区版可免费下载,适用于中小企业开发者,企业版适用于追求更高扩展能力、稳定性的中大型企业,公有云版适用于阿里云、AWS等全球主流公有云场景;2)图数据库:OceanBaseTuGraph构建了包含图存储、图计算、图学习、图研发平台的完善的图技术体系,适用于金融、工业、政务等业务场景;3)时序数据库:OceanBaseCeresDB基于OceanBase分布式存储引擎,用来存储和管理时间序列数据,适用于物联网IoT、运维监控等业务场景;4)工具体系:涵盖数据库评估、迁移、开发、运维等工具。图表75:OceanBase产品体系及典型数据库产品OceanBase官网、OceanBase从3.0版本起核心代码正式开源,打造开源社区,实现生态共赢。2021年6月1日,OceanBase正式宣布开源,截止2022年8月,OceanBase已连接了超过3万多的社区开发者,并有超过100位开发者为OceanBase贡献代码,问答社区的总数据达14,000多条消息,自开源以来平均每月问答消息超1,000条。依托于开源社区的建设,OceanBase在技术升级、社区活跃、培训计划、合作伙伴、用户免费试用等各个层面不断加码,力求成为开源数据库中的引领者。2022年公司在发布4.0正式版的同时,发布4.0社区版,MySQL兼容能力全部开源,享受企业版同等性能,有望进一步推进开源共赢。
37OceanBase客户主要集中在银行、保险证券、政企、互联网。OceanBase最早应用于阿里集团的淘宝、网商银行、支付宝等业务场景,实现了在互联网、金融交易等业务上的产品沉淀,目前下游客户主要集中在银行、保险、证券、政企、互联网等领域。以中国工商银行为例,面对工商银行的5级容灾要求,OceanBase结合不同的副本属性组合实现“数据库同城双活、异地RPO=0的两地三中心方案”的容灾部署,实现了两地三中心的城市级容灾,解决了容灾标准高、建设成本高、备机房资源浪费等问题,满足7x24小时服务要求,数据库服务器资源利用率达到75%,降低了整体的投入成本。图表76:OceanBase主要应用场景及客户概览OceanBase官网、华为GaussDB:AI原生数据库,拥抱开源生态AI原生&支持异构计算。华为GaussDB是一个企业级AI-Native分布式数据库,可为超大规模数据管理提供高性价比的通用计算平台,也用于支撑各类数据仓库系统、BI系统和决策支持系统,为上层应用的决策分析提供服务。GaussDB采用MPP(MassiveParallelProcessing))架构,支持行存储与列存储,提供PB级别数据量的处理能力。GaussDB是全球首款AI-Native数据库,能够同时支持X86、ARM、GPU、NPU等异构计算,布局全球7大区域,服务金融、政企、互联网、游戏、汽车等行业标杆客户超2,500家。图表77:GaussDB数据库产品发展历程资料来源:华为官网、
38GaussDB包含三大产品线:关系型数据库、非关系数据库、数据库生态工具/中间件。1)关系型数据库:包括华为自研的云数据库GaussDB(foropenGauss)、GaussDB(forMySQL)以及非自研的适用于MySQL、PostergreSQL、SQLServer的云数据库RDS;2)非关系型数据库:包括华为自研的GaussDB(forMongo)、GaussDB(forCassandra)、GaussDB(forInflux)、GaussDB(forRedis)以及非自研的文档数据库服务DDS;3)数据库生态工具/中间件:包括数据复制服务DRS、管理服务DAS、数据库和应用迁移UGO以及分布式数据库中间件DDM。图表78:GaussDB产品体系注:标星的为华为自研产品资料来源:华为官网、openGauss拥抱开源。2019年9月,华为宣布开源其GaussDB数据库,开源后的产品命名为openGauss,2020年6月openGauss源代码正式开放并发布1.0.0版本,同年7月社区关键组织开始运行。openGauss内核源自PostgreSQL,代码自研占比超过74%,截至2022年6月开源社区用户超64万,贡献者约3,000人。基于openGauss开放生态,华为进一步推出分布式云数据库GaussDB(foropenGauss),该产品具备企业级复杂事务混合负载能力,同时支持分布式事务强一致、同城跨AZ部署、数据0丢失,支持1000+的计算节点扩展能力、4PB海量存储,拥有云上高可用、高可靠、高安全、弹性伸缩、一键部署等关键能力,现已广泛适用于金融、政企、互联网等关键场景。
39图表79:华为GaussDB(foropenGauss)分布式架构华为官网、GaussDB适应互联网、金融、游戏、汽车等多业务场景。GaussDB(foropenGauss)作为金融级分布式数据库,具有高性能、高弹性、AI-Native自治的典型特性,广泛应用于金融业务场景;GaussDB(forMySQL)数据库提供百万级QPS,性能最高可以达到MySQL社区版本的7倍、GaussDB(forMongo)性能最高可以达到MongoDB社区版本的3倍,满足游戏业务场景下弹性伸缩、一键回档、快速开服的业务需求;综合应用RDS数据库、DDS文档型数据库、数据复制服务DRS、分布式数据库中间件DDM等产品,可构建读写分离的分布式架构,为互联网行业应用提供分布式解决方案。图表80:GaussDB主要客户及所属行业资料来源:华为官网、巨杉数据库:自研金融级分布式数据库的独立厂商专注分布式数据库技术研发的自研数据库独立厂商。巨杉数据库成立于2012年,是一家专注分布式数据库技术研发的自研国产基础软件厂商,公司自成立以来,专注数据库产品研发,坚持从零开始打造原生分布式数据库引擎,经过多年积累,现已推出分布式数据库DB(实时数据湖)、内容管理平台CM(多模数据湖)、湖仓融合平台DP(湖仓一体)三大产品线,广泛应用于金融、政府、能源、电信、交通等领域,企业用户总数超过1,000家。
40图表81:巨杉数据库产品体系资料来源:巨杉数据库官网、从商用首发时间看,巨杉数据库是国内最早进行商业化布局的分布式数据库。2012年,SequoiaDB巨杉数据库作为独立数据库公司开始研发,进行原生分布式架构布局。2013年SequoiaDBv1.0产品化正式商用并进军企业级领域,开始为客户提供产品及技术服务支持。自研内核具有领先性,支持跨结构化、半结构化、非结构化的多模数据处理。巨杉数据库坚持自主打造原生分布式数据库引擎,专注数据库技术研发,聚焦金融赛道,致力于以金融行业为核心,打造安全可靠、高性能,适合全行业通用的分布式数据库产品。巨杉分布式数据库SequoiaDB基于巨杉自研的原生分布式内核,研发出引擎级多模及STP逻辑时钟协议分布式数据库技术,能够实现分布式交易与ACID的完全兼容,同时架构及功能特性与传统数据库完全兼容,提供跨引擎事务支持和一致性保障。SequoiaDB支持多种级别的容灾部署形态,如同城双中心、同城三中心、两地三中心、三地五中心等,独创四级熔断容灾安全保护机制,充分保证数据安全,满足核心交易业务的严苛要求。图表82:巨杉数据库SequoiaDB产品架构资料来源:巨杉数据库官网、
41湖仓一体平台为数据联通提供解决方案。巨杉推出的湖仓融合平台SequoiaDP以分布式数据库SequoiaDB、内容管理平台SequoiaCM为基础,打破了数据湖与数据仓库割裂的体系,可以为上层应用提供“一数一源”的数据基础设施。湖仓一体架构除了具备多模能力,兼容多种结构化数据、半结构化数据和非结构化对象数据引擎以外,还可以提供包括流式计算、高性能列存分析引擎、跨引擎数据ACID一致性等能力,支持Tableau、PowerBI、帆软、SmartBI等国内外分析工具,解决了独立建设、管理的数据库数据互不相通的问题。图表83:巨杉湖仓一体平台为数据联通提供解决方案资料来源:巨杉数据库官网、巨杉主要为金融客户提供数据库产品,业务延伸至政府、能源、电信等多领域。巨杉数据库最早聚焦于金融业务,据公司官网,巨杉数据库SequoiaDB已在超过100家大型银行及金融机构的生产业务规模上线应用。近年来,伴随公司数据库产品体系的拓展,公司业务向政府、能源、电信等领域拓展,根据公司官网,截至2021年巨杉数据库企业用户总数已超过1,000家,支持超过4,096节点,超10PB级别存储容量,已成功协助客户在高达1.2万亿数据量生产环境下,提供安全稳定、可灵活扩展、高性能、高并发的数据底座。图表84:巨杉数据库客户概览资料来源:巨杉数据库官网、
42助力数据库信创生态、支撑体系建设。巨杉数据库积极参与信创生态建设,根据2021年信创产业技术与应用大会,截至2021年3月,巨杉已经与鲲鹏、飞腾、统信、银河麒麟等产品完成兼容认证,合作伙伴总数超50家,为企业客户打开丰富的上下游产品生态。得益于引擎级多模的高度兼容,巨杉数据库现已与近百家企业的200+产品完成了兼容测试与认证,产品对接时间平均降低到15个工作日,为企业客户打开丰富的上下游生态。2019年,巨杉数据库搭建“巨杉大学”认证与学习体系,讲师团队由巨杉数据库官方的数据库架构师、资深分布式技术专家以及开源社区技术大咖共同组成。截至2021年6月,已有超180家金融机构,30余家知名技术服务开发商参加巨杉大学计划。截至2020年底,经过短短1年的发展,巨杉大学已认证工程师超过1万人,网站用户注册数量超过5万人,为分布式技术业界发展提供坚实的人才积淀。PingCAPTiDB:开源分布式关系型数据库TiDB为PingCAP自主研发的一栈式实时HTAP数据库。PingCAP公司成立于2015年,借鉴GoogleSpanner及F1论文的实现,TiDB在Github上开源,从仅有SQL层及KV层的beta版本到现在已经衍生出庞大家族的6.0版本,始终围绕着为用户提供一栈式OLTP、OLAP、HTAP解决方案的目标演进。在内核设计上,TiDB分布式数据库将整体架构拆分成了多个模块,各模块之间互相通信,组成完整的TiDB系统。与传统的单机数据库相比,TiDB的纯分布式架构拥有良好的扩展性且具有丰富的工具链生态,覆盖数据迁移、同步、备份等多种场景。2022年,TiDBCloud正式商用,TiDB支持本地和云部署两种方式。图表85:TiDB产品发展历程及产品架构《TiDB产品与解决方案》,TiDB(2022)、TiDB适应多应用场景。依托纯分布式架构及开源社区,TiDB持续扩展出丰富的应用场景:1)对数据一致性及高可靠、系统高可用、可扩展性、容灾要求较高的金融场景:TiDB采用多副本+Multi-Raft协议的方式将数据调度到不同的机房、机架、机器,当部分机器出现故障时系统可自动进行切换;2)对存储容量、可扩展性、并发要求较高的海量数据及高并发的OLTP场景:TiDB采用计算、存储分离的架构,可对计算、存储分别进行扩容和缩容,计算最大支持512节点,每个节点最大支持1000并发,集群容量最大支持PB级别;3)Real-timeHTAP场景:TiDB在4.0版本中引入列存储引擎TiFlash,结合行存储引擎TiKV构建真正的HTAP数据库,在增加少量存储成本的情况下,可以同一个系统中做联机交易处理、实时数据分析,极大地节省企业的成本;
431)数据汇聚、二次加工处理的场景:TiDB通过ETL工具或者TiDB的同步工具将数据同步到TiDB,在TiDB中直接生成报表,便于将分散在不同系统中的数据汇总,以便决策层了解公司的整体业务状况及时做出决策。“开源社区”助力“开源商业化”。PingCAP拥有丰富的开源社区活动,形成开源社区和自身研发的有效协同。通过开源及免费策略,快速扩展开发者及技术粉丝用户群体,实现未来商业变现机会的长期积累。据GitHub,截至2022年8月,TiDB项目在GitHub上已总计获得超32,000颗星,超1,800位开源代码贡献者,高度活跃的开源社区为TiDB产品发展带来了正向反馈闭环。TiDB已广泛应用于互联网、游戏、金融、政府等多领域。图表86:TiDB数据库国内用户概览TiDB官网、星环科技:专注企业级大数据服务,布局分布式数据库布局分布式数据库,搭建数据服务闭环。星环科技成立于2013年,专注于企业级容器云计算、大数据和人工智能核心平台的研发和服务,目前已形成包括大数据与云基础平台(大数据基础平台TDH、数据云平台TDC)、分布式关系型数据库(ArgoDB、KunDB)、数据开发与智能分析工具(大数据开发工具TDS、智能分析工具Sophon)在内的产品体系。ArgoDB与KunDB分别为分析型、交易型数据库产品:1)ArgoDB:是一款具备多模型、联邦等特性的高性能分析型分布式数据库,于2019年成为全球第四个通过TPC-DS基准测试并经过TPC官方审计的数据库产品;2)KunDB:是一款兼容SQL标准语言的交易型分布式数据库,可支持高并发交易场景的核心业务。
44图表87:星环科技产品体系及发展历程资料来源:星环科技招股说明书、ArgoDB满足数据多模、联邦计算需求。与传统的MPP数据库相比,ArgoDB具有存算解耦结构,存储和计算独立按需扩缩容,具备更强的可扩展性、一致性、平滑适配云原生架构等优势。2022年最新发布的ArgoDB5.0推出新一代的向量化计算引擎和多模存储引擎,分析能力达到了同类数据库产品2~10倍,同时可提供多模分析,拥有实时数据处理、AETP混合负载、联邦计算、隐私计算等能力,可一站式满足湖仓集一体化建设需求。图表88:星环科技分析型数据库ArgoDB5.0架构星环科技官网、KunDB支持高并发交易场景的核心业务。KunDB具有业内领先的事务处理性能,SQL兼容性以及最新的分布式查询优化技术,支持复杂查询且性能是MySQL的10倍以上,充分满足高并发、大数据量的交易型业务场景。升级后KunDB3.0高度兼容Oracle语法及PL/SQL,基于升级的TSO全新分布式事务架构,性能领先主流开源NewSQL5倍以上,分布式查询优化和向量化执行引擎技术支持TPCH复杂分析,并提供一体化实时HTAP,支持一致性备份恢复及容灾,全面助力数据库国产化升级。
45图表89:星环科技交易型数据库KunDB3.0架构星环科技官网、星环科技数据库服务能源、金融、政府、交通等多业务场景。ArgoDB主要用于构建离线数据仓库、实时数据仓库、数据集市等数据分析系统,适用于构建能源、物联网、政务等大数据平台的业务场景。KunDB适用于对数据具有高并发读写需求,同时需要ACID保证的交易型场景,如金融、电信、能源等核心业务系统;也适用于对数据库有高并发和大容量存储需求的场景,如物联网、日志存储等系统。此外,公司结合KunDB和ArgoDB打造了一体化实时AETP技术(分析增强型交易库),可以同时支撑交易与分析混合型的业务场景。图表90:星环科技数据库主要应用场景及客户概览星环科技官网、
46风险提示市场竞争加剧风险。国产数据库快速发展,但参与者众多,存在竞争加剧的风险。芯片及AI行业发展导致IT投资倾斜风险。随着芯片及AI行业迅速发展,存在IT投资向芯片、AI领域倾斜,对数据库领域投资产生影响的风险。图表91:提及公司表公司名称公司代码OracleORCLUSMicrosoftMSFTUSAWSAMZNUSIBMIBMUSUSGoogleGOOGUSSnowflakeSNOWUSMongoDBMDBUS阿里巴巴9988HK腾讯0700HK星环科技688031CH000063CH浪潮信息000977CH达梦数据未上市Databricks未上市人大金仓未上市南大通用未上市华为未上市巨杉数据库未上市偶数科技未上市智臾科技未上市欧若数网未上市涛思数据未上市四维纵横未上市Bloomberg、
此文档下载收益归作者所有