未来已来！分布式数据库的“星辰大海”绝不仅限于替换

时间：2021-03-22 10:52:40 来源：CSDN 作者：

记得两三年前，当人们在谈论起分布式数据库等技术时，还经常在用“未来”等词语描述这一新技术的应用前景。在刚刚过去的2020年，新一代数据库龙头Snowflake成功上市，成为历史上规模最大的软件企业IPO。我们回头一看才发现，原来未来已来！

然而，分布式数据库应该如何在企业中正确地落地，一直是业界讨论的焦点。在国内，大部分读者第一次了解到分布式数据库时，首要的问题就是：分布式数据库是否能替换Oracle？然而，从全球数据量发展的方向来看，其爆发性增长，主要集中在基于数字化创新的多样化业务场景。因此，单纯替代传统Oracle占据核心优势的固有领域，并非是数据库未来的增长方向。以Snowflake为例，其业务并没有替换Oracle核心应用领域，却以4亿美元营收换回700亿美元市值，正在撼动Oracle在数据市场的龙头地位，其背后的原因值得我们深思。

基于“替换”的思维永远无法“超越”

实际上，在替换Oracle的问题上，并没有“能”或“不能”这样一刀切的答案。分布式数据库的设计初衷是解决全新的实际业务问题，在Oracle所无法满足的场景中，与企业客户一同迎接数字化转型的机遇，而并不是为了单纯替换某个原有系统。

传统关系型数据库在核心交易等领域深耕了40多年，到目前为止，大部分纯交易场景不论从数据量还是商业模式都没有本质的变化，其业务的扩展空间也十分有限。而在企业数字化转型的过程中，数据量会随着业务发展快速膨胀，形成全新的业务需求及数据增量，为数据库带来全新的市场机遇。

相比传统关系型数据库，分布式数据库在提供ACID事务一致性的能力的同时，拥有更灵活的扩展能力，及多数据模型的处理能力。在面向海量数据弹性扩展的新兴业务需求时，做到“不使用Oracle而选择分布式数据库”，是我们在行业中应用分布式架构的最佳实践。也就是说，使用分布式数据库逐步迭代，伴随全新的数字化业务渐渐渗透到传统业务，成为新的数据核心场景，是分布式数据库技术在企业中最佳的落地方案。

因此，分布式数据库的星辰大海，绝不仅仅在于对传统关系型数据库的简单替换。如果只是为了使用及推广新技术，而进行固有架构的替换，将会面临极大的技术风险与挑战。只有站在企业客户的角度出发，与客户共同挖掘数字化转型中的全新数据价值，才能突破固有框架，建立全新的分布式技术赛道，超越传统的架构边界。

如何选择最佳落地场景

从业务场景的角度，自上世纪70年代末关系型数据库诞生，Oracle、DB2等数据库已经经历了40多年的发展历史，对于其固有的业务场景来说，基本已经做到了业界极致。而面向新的数据中台联机湖仓、微服务数据融合管理、海量数据实时访问、非结构化在线处理等方面，传统交易性数据库则明显力不从心。企业客户选择分布式数据库落地场景时，应该选择适当的应用场景，以真正发挥其优势能力，并持续打磨技术团队的运维能力，逐步推向核心。

1）数据中台联机湖仓

在不少的企业IT架构规划中，数据中台已经成为整个IT战略的一部分，包含了历史数据平台甚至非结构化数据处理等多数据模型领域，几乎覆盖了企业中除了业务应用系统之外的全部数据处理及服务能力。

在此场景下Oracle无法满足扩展能力，而Hadoop又无法支持实时并发业务。国际上也没有直接与其对标的技术体系，最为贴近的则是Lakehouse（湖仓一体化）。Lakehouse的行业主要厂商包括像Snowflake及Databricks等分布式数据库厂商，其产品可以分为数据湖与计算引擎两大核心模块。2020年Gartner进一步引入了Augmented Transactions Processing处理场景，强调事务一致性，要求数据库在分析处理过程中同时保持低延迟，以提升实时联机处理能力。

可以预见，支持Augmented Transactions Processing能力的联机湖仓，将为数据中台提升实时联机处理能力，数据实现一次存储多业务多数据模型同时使用，加速数据的处理效率，减少数据冗余，提供更绿色环保的数据基础设施。

2）微服务数据融合管理

微服务应用开发架构逐渐成为主流的今天，传统一个应用对接一个数据库的架构被拆散成几十上百个微服务，每个微服务都可能需要使用独立的数据库实例，因此在企业内部数据库实例数量近年来呈井喷态势发展。

分布式数据库的出现可以很好地解决数据库实例批量管理中，扩展困难以及维护困难的问题。同时，基于引擎级多模技术，分布式数据库可以基于同一份数据，支撑多种数据库引擎的联机交易，通过跨引擎事务一致性能力，为客户打通微服务架构下异构数据源的ACID一致性。因此，分布式数据库技术相比传统Oracle等数据库更有利于微服务化，为企业打通底层数据，降低数据的存储及管理成本。助力研发团队进行DevOps持续交付，提升产品研发效率。

3）海量数据实时访问

海量数据的存储和计算通常由数仓（MPP数据库）或大数据平台（Hadoop）完成，数据量往往达到千亿（甚至万亿）级别。传统应用中，由于数仓中需要预先完成数据清洗入库，数仓及大数据平台无法支持实时并发数据访问，限于现有平台的处理模型，因此难以进行联机业务的创新。然而，数据化转型过程中，对客联机交易、历史数据服务平台或IoT物联网系统中，会产生要求联机实时处理海量数据的解决方案。

分布式数据库可以在这一场景中，协助企业客户获得更佳的使用体验。首先，分布式数据库与Hadoop及数据仓库一样具有很好的弹性扩展能力。其次，分布式数据库可以提供与传统关系型数据库同等的ACID支持，以保障其关键业务的事务一致性。最重要的是，分布式数据库可以更好地支持高并发的业务访问，可以像使用单机数据库一样，在包含几千亿甚至万亿级记录的表中实现毫秒级数据检索。

4）非结构化数据治理

非结构化数据包括图片、文档、音视频等对象文件，以往只是单纯存放于存储系统中，提供单一的保存及调取功能。因此，除了直接操作这些文件的业务系统外，非结构化数据对于企业中的其他系统就是一个黑匣子，无法发挥数据的潜在价值。

如今的业务系统往往开始大规模联机使用这类非结构化数据。例如，在业务中各类文件采集，交易过程头像、指纹、声纹监管要求的原档留存，各类业务的360客户画像系统，处理过程需要与非结构化数据进行高频比对，并发处理及采样修正，这些场景都需要非结构化数据的联机实时管理。单纯采用NAS或网盘存储海量非结构化数据，早已经无法满足这类实时联机处理能力的需求。

同时，数字化转型中非结构化数据不再是静态的文件。通过AI机器学习及比对分析，非结构化数据将包含更多元化的业务属性，为各类业务系统提供信息输入。因此，需要对其进行有效的分类治理，盘活非结构化数据资产的潜在价值。

分布式数据库可以有效提升非结构化数据的实时处理能力，结合引擎级多模能力统一存储结构化及对象数据，可以有效地实现基于标签特征数据的分类治理，成为企业「非结构化数据治理」建立坚实的底座。

分布式技术演进趋势

从技术角度，在各行业对海量数据、互联网类应用快速发展的需求中，弹性扩张、多模式等功能是传统Oracle数据库所难以满足的，也是分布式数据库存在的最大价值与目的。在这类技术背景下，做到“不使用Oracle而选择分布式数据库”是最正确的答案。分布式数据库的最佳落地与使用方式，正是从海量数据业务到核心的逐步迭代过程。先从存在海量数据弹性扩展的新兴业务需求入手，随着业务革新不断的深入，逐渐渗透进传统业务及应用中。

1）弹性：存算分离实现灵活扩展

作为分布式数据库，弹性扩展能力是其存在的核心意义与价值。相比起传统MPP数据仓库，新型分布式数据库可以基于存算分离的部署模型，实现存储与计算资源独立扩展的能力，实现对应用层面无感知的按需弹性扩展。

2）事务：原生分布式强一致性

在分布式技术逐步贴近业务核心的过程中，客户对于ACID事务一致性的要求也持续提升。例如，在联机交易业务中，往往要求“RR级别事务隔离”能力。在这类需求中，基于分库分表技术的解决方案，由于数据库本身无法提供此支持，（部分产品甚至不提供事务支持或通过1PC提交进行弱化）。导致需要借助大量外围应用程序逻辑配合，才能达到最终一致性的效果，大量消耗开发人员的设计精力。而原生分布式数据库，得益于源自内核的分布式设计，客户可以放心地将事务一致性逻辑交由数据库层进行处理，让开发人员回归到纯粹的业务设计，为业务提供直接有效的研发产出，提升企业研发效率。

3）融合：引擎级多模，打开湖仓一体新赛道

关系型数据库经过了40多年的发展，早已经从最开始的纯结构化模型衍生出了支持XML、JSON、地理信息、图等不同的能力。传统数据库由于在同一个物理设备上使用同构引擎，多模式能力很难真正发挥到极致。而在分布式数据库架构中，用户完全可以使用不同的物理设备及底层数据结构，承载不同数据模型的计算及存储引擎，真正做到原生的引擎级多模技术。从而提供跨不同数据模型乃至不同数据库语言及引擎之间的数据共享，避免不同模型间进行联机处理时，由于频繁数据拷贝，导致传输延迟及存储空间浪费。基于多模能力构建同时满足结构化、半结构化、非结构化数据的数据湖，同时赋予跨引擎数据一致性能力，及实时数据分析能力，真正意义上让全局数据实时可见。开发者因此可以跨越不同数据引擎间的开发鸿沟，提升开发效率及系统性能，打开分布式技术的全新赛道。

总结

传统关系型数据库历经了40多年的发展，在其主打的核心交易领域几乎走到了极致。单独以核心交易场景对标新型分布式数据库，就好似用传统的马车标准来衡量新生的汽车技术，无法对新技术做到合理的评估。

分布式数据库的诞生首先是为了解决传统数据库不擅长的场景，在关系型数据库做到极致的领域同样需要很长的时间才能完善。得益于高弹性、强事务一致、多模融合等特点，近年来不少企业已经在：数据中台联机湖仓、微服务数据融合管理、海量数据实时访问、非结构化在线处理等领域，实现原生分布式数据库规模化的生产落地。我们欣喜地看到，分布式数据库的应用领域几乎每年都会有大幅度扩展，成为支撑企业数字化改革升级中不可或缺的弹性数据基础设施。

巨杉数据库早在2014年起就发布基于多模引擎的支持，为客户提供可同时管理多种数据结构的分布式数据基础设施。已经协助超过100家金融银行客户和超过1000家企业用户，提供分布式数据库技术。借助自主专利的STP分布式序列时钟协议，实现RR级事务隔离及跨引擎事务一致性能力，为数据中台提供联机湖仓生产落地的最佳实践，已成功协助客户在高达1.2万亿数据量生产环境下，提供安全稳定、可灵活扩展、高性能、高并发的数据底座。

回顾过去的10年，分布式数据库经历了从行业质疑、小规模试水、到如今在部分行业的规模化应用。我们坚信，在新的一年中我国的分布式数据库产业一定会更加蓬勃发展，未来的三到五年分布式数据库的应用规模有望超越Oracle成为核心交易业务的重要组成部分。

未来，借助100%自主研发的原生分布式数据库引擎，及引擎级多模特性，巨杉数据库将秉持以客户为中心的价值观，与客户及上下游合作伙伴一同，为金融、能源、运营商及政企客户提供优质的产品、技术服务及生态支持，推动全球数字化进程。

分布式数据库：未来已来。

Tags：分布式数据库点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com)，我们将及时更正、删除，谢谢。

▌相关推荐

蚂蚁开源 OceanBase，开源分布式数据库又迎新玩家

今天是六一儿童节，蚂蚁选择在今天开源 OceanBase，想必是给各位分布式数据库用户送上的儿童节礼物吧！昨日凌晨蚂蚁已将代码推送到 GitHub：https://github.com/oceanbase/oceanb...【详细内容】

2021-06-02　　Tags: 分布式数据库点击:(142)　　评论:(0)　　加入收藏

OceanBase开源，11张图带你了解分布式数据库的核心知识

蚂蚁集团自研数据库OceanBase已经开源，这对国产分布式数据库来说，是一个重磅消息。一直以来OceanBase作为商业数据库，披露的技术细节并不多,以后又多了一个可以拿来研究的优秀...【详细内容】

2021-06-02　　Tags: 分布式数据库点击:(153)　　评论:(0)　　加入收藏

未来已来！分布式数据库的“星辰大海”绝不仅限于替换

记得两三年前，当人们在谈论起分布式数据库等技术时，还经常在用“未来”等词语描述这一新技术的应用前景。在刚刚过去的2020年，新一代数据库龙头Snowflake成功上市，成为历史上规...【详细内容】

2021-03-22　　Tags: 分布式数据库点击:(159)　　评论:(0)　　加入收藏

Mysql重磅推出金融级分布式数据库MGR大揭秘

MGR简介MySQL Group Replication，简称MGR，它是MySQL官方推出的基于paxos分布式一致性协议的状态机复制，实现了分布式下数据的最终一致性。同时MGR提供了高可用、高扩展、高可靠...【详细内容】

2020-11-12　　Tags: 分布式数据库点击:(207)　　评论:(0)　　加入收藏

聊聊HBase分布式数据库设计那些事

数据模型传统的关系型数据库，一张表(table)由行(row)和列(column)组成。相对Hbase分布式数据库却有所差别，可以把Hbase中的表理解成不同维度Map的集合。包含以下主要概念。 ta...【详细内容】

2020-10-29　　Tags: 分布式数据库点击:(166)　　评论:(0)　　加入收藏

分布式数据库Hbase入门介绍

Hbase是Hadoop开源项目下的一个子项目，是一个构建在hdfs之上，支持分布式，水平扩展，数据多版本等特性的NoSQL数据库。现广泛应用于大数据的存储和查询场景。单机模式安装安装包下...【详细内容】

2020-10-13　　Tags: 分布式数据库点击:(145)　　评论:(0)　　加入收藏

中标！分布式数据库领军企业易鲸捷再获物联网行业大单

近日，贵州易鲸捷信息技术有限公司独家中标中移物联网有限公司OneLink平台四期工程项目（融合分布式数据库）。中移物联网有限公司是中国移动通信集团公司出资成立的全资子公司，是...【详细内容】

2020-08-14　　Tags: 分布式数据库点击:(75)　　评论:(0)　　加入收藏

分布式数据库调优实践

数据库调优实践案例数据库作为基础数据支撑层的核心部分，对于应用和平台整体性能表现有着决定性的影响。因此，数据库性能优化可以说是最考验DBA能力的工作了。本文我们就由数...【详细内容】

2020-06-24　　Tags: 分布式数据库点击:(62)　　评论:(0)　　加入收藏

全面讲解分布式数据库架构设计特点

数据库作为基础软件中的重要一环有着很深的技术含量，在这样的大背景下国产数据库厂商开始发力，这其中分布式数据库如雨后春笋般出现，良性的竞争环境使它们都得到了长足的发展，其...【详细内容】

2019-11-19　　Tags: 分布式数据库点击:(152)　　评论:(0)　　加入收藏

Apache ShardingSphere开源的分布式数据库中间件

ShardingSphere是一套开源的分布式数据库中间件解决方案组成的生态圈，它由Sharding-JDBC、Sharding-Proxy和Sharding-Sidecar（计划中）这3款相互独立的产品组成。他们均提供标准化的数据分片、分布式事务和数据库治理功...【详细内容】

2019-09-06　　Tags: 分布式数据库点击:(196)　　评论:(0)　　加入收藏

▌简易百科推荐

SQL常用增删改查语句

1增1.1【插入单行】insert [into] <表名> (列名) values (列值)例：insert into Strdents (姓名,性别,出生日期) values ('开心朋朋','男','1980/6/15&#3...【详细内容】

2021-12-27　　快乐火车9d3　　　　Tags:SQL 　点击:(1)　　评论:(0)　　加入收藏

以一个简单的查询存储过程为例，简单说一下sql的几种写法

最近发现还有不少做开发的小伙伴，在写存储过程的时候，在参考已有的不同的写法时，往往很迷茫，不知道各种写法孰优孰劣，该选用哪种写法，以及各种写法的优缺点，本文以一个简单的查询...【详细内容】

2021-12-23　　linux上的码农　　　　Tags:sql 　点击:(9)　　评论:(0)　　加入收藏

HasorDB 一个全功能数据库访问工具

《开源精选》是我们分享Github、Gitee等开源社区中优质项目的栏目，包括技术、学习、实用与各种有趣的内容。本期推荐的HasorDB 是一个全功能数据库访问工具，提供对象映射、丰...【详细内容】

2021-12-22　　GitHub精选　　　　Tags:HasorDB 　点击:(5)　　评论:(0)　　加入收藏

一文详解Liquibase如何自动化数据库脚本部署

作者丨Rafal Grzegorczyk译者丨陈骏策划丨孙淑娟【51CTO.com原创稿件】您是否还在手动对数据库执行各种脚本?您是否还在浪费时间去验证数据库脚本的正确性?您是否还需要将...【详细内容】

2021-12-22　　　　51CTO　　Tags:Liquibase 　点击:(3)　　评论:(0)　　加入收藏

SQL 中 on 和 where 条件放置的差异

场景描述：由于生产环境的表比较复杂，字段很多。这里我们做下简化，只为说明今天要聊的问题。有两张表 tab1，tab2： tab1 数据如下： tab2 数据如下：然后给你看下，我用来统计 name=&#3...【详细内容】

2021-12-20　　Bald　　　　Tags:SQL 　点击:(5)　　评论:(0)　　加入收藏

一文掌握SQL基础

前言知识无底，学海无涯，知识点虽然简单，但是比较多，所以将MySQL的基础写出来，方便自己以后查找，还有就是分享给大家。一、SQL简述1.SQL的概述Structure Query Language(结构化查...【详细内容】

2021-12-16　　谣言止于独立思考　　　　Tags:SQL基础　点击:(13)　　评论:(0)　　加入收藏

做测试不会 SQL？超详细的 SQL 查询语法教程来啦

前言作为一名测试工程师，工作中在对测试结果进行数据比对的时候，或多或少要和数据库打交道的，要和数据库打交道，那么一些常用的 SQL 查询语法必须要掌握。最近有部分做测试小伙...【详细内容】

2021-12-14　　柠檬班软件测试　　　　Tags:SQL 　点击:(15)　　评论:(0)　　加入收藏

C｜数据存储地址与字节偏移、数据索引

话说C是面向内存的编程语言。数据要能存得进去，取得出来，且要考虑效率。不管是顺序存储还是链式存储，其寻址方式总是很重要。顺序存储是连续存储。同质结构的数组通过其索引表...【详细内容】

2021-12-08　　小智雅汇　　　　Tags:数据存储　点击:(17)　　评论:(0)　　加入收藏

数据库迁移有什么技巧？|分享强大的database迁移和同步工具

概述DBConvert Studio 是一款强大的跨数据库迁移和同步软件，可在不同数据库格式之间转换数据库结构和数据。它将成熟、稳定、久经考验的 DBConvert 和 DBSync 核心与改进的现...【详细内容】

2021-11-17　　雪竹聊运维　　　　Tags:数据库　点击:(26)　　评论:(0)　　加入收藏

谈谈执行一条SQL的流程

一、前言大家好,我是小诚,《从0到1-全面深刻理解MySQL系列》已经来到第四章,这一章节的主要从一条SQL执行的开始,由浅入深的解析SQL语句由客户端到服务器的完整执行流程,最...【详细内容】

2021-11-09　　woaker　　　　Tags:SQL 　点击:(35)　　评论:(0)　　加入收藏

推荐资讯

远程软件发展迅猛，ToDe	倒计时！企业QQ即将下架
极简Windows11与iPhon	iPhone信号问题，花10元
惊人数据：App Store中4	个人所得税递延纳税报
非常实用的 Python 库	等离子电视技术先进，为