得数据者得天下。数据,是未来企业发展的基石。在全民都高喊数字化转型的大背景下,不管是企业的运营,还是民生,整个社会无时无刻不在产生数据。而关于如何更好地存储和运用这些海量的数据,是我们永远都绕不开的话题。
今天我们将从历史的角度,分析历代数据库的发展脉络及各自的优缺点。以及在各种“卡脖子”的世界格局之下,国产数据库的“异军突起”-OushuDB是如何在众多数据库的“拼杀”中脱颖而出,成为世界上最快的分析型数据库,并成为中国唯一一家把自主研发的高性能数据库产品出售到美国市场。
早在19世纪70年代,第一代专门用来存储计算机产生的数据的数据库就已经诞生。以甲骨文、IBM为代表的公司,研发了第一代数据库Oracle和DB2,这些算是数据库的鼻祖,也一直延用至今。与此同时,用于数据库数据查询的语言,SQL的标准,也是在这个时代诞生。ANSI在1986年发布了首个SQL标准。
第一代数据库主要应用于关系型数据的存储和一些业务报表的分析,它一般以单节点的形式存在,最多只能扩展到十几个节点,而且扩展也比较困难。它的性能属于中差水平,无法应对海量数据的快速分析。
代表:oracle 、DB2、sqlserver
节点:十几;扩展困难
SQL兼容性:好性能:中
云支持:差
伴随着互联网的高速发展,数据的规模成指数级增长。第一代数据库无论是在存储容量上或是在计算速度上,都已经无法满足需求。一次商业计算分析任务,可能要花上几个小时的等待,才能得出结果。大规模并行计算正是在这个时代发展起来。它的核心应用方向就是大数据分析,通过分而治之的思想,来实现分析任务的快速完成。
代表:teradata、greenplum
节点:几百;扩展困难
SQL兼容性:好性能:中
云支持:差
这一代的数据库特点是以Hadoop、HDFS为理论基础,通过存算分离的架构,来实现大数据的存储与计算。而作为通用的数据操作语言SQL,自然也被容入到了这个体系中来。典型的有HiveSQL、SparkSQL等应用框架
代表:cloudera、hive、spark
节点:上千节点,易扩展
SQL兼容性:差性能:较好
云支持:中
OushuDB应用架构
虽然第三代数据库架构已经解决了大规模存储和大规模计算等问题,但其在SQL兼容性、在实时性、在云原生支持等方面,并不那么理想。而第四代数据库,不仅仅解决了大规模的存算问题,同时还拥有更好SQL兼容、大规模集群、流批一体、湖仓一体以及天生的云原生支持等特性。
作为第四代数据库中国产数据库的代表,OushuDB具备以上所有的特性,同时还具备以下特点:
OushuDB特点
从下图可以看出,OushuDB在与其它数据仓库的对比中,各项指标都占据上峰:
OuShuDB与其它数据仓库的比较
OushuDB采用存算分离架构,不管是存储节点还是计算节点,都支持云原生状态下的独立自由扩展。
关于存储:
OushuDB的存储单元通过可插拨的方式进行自由扩展,支持S3、HDFS以及自研的Magma存储方式。三种存储方式各有特点,用户可根据不同的应用场景和预算要求,选择合适的存储方式。此处我们重点了解一下自研的Magma存储方式:
1、作为存储,Magma存储的数据是表数据,是结构化数据,不是简单的KV。
2、Magma支持对表数据做更新和删除操作。
3、它的高可用是通过Raft的协议数据复制来实现的。
4、它的事务特性是通过多版本来实现的。
5、它的高性能的是通过行列混合的存储格式来支持OLAP高性能查询。
6、它提供了数据索引功能,可以建立主键索引和非主键索引。
7、作为分布式的存储,它整合数据预处理技术,提供了便捷的集群扩展、集群容错以及负载均衡。
关于计算:
OushuDB是目前全球最快的新一代分析型云原生数据库引擎,基于SIMD技术,可以实现PB级大数据交互式查询。其性能比传统数据仓库快5-10倍,比传统SQL on Hadoop引擎快几十倍。其领先的性能优化技术包括:
1、采用了基于SIMD的全新执行器
2、动态流水线架构
3、基于SIMD的压缩解压算法
关于标准支持:
OushuDB完整兼容ANSI-SQL-92, SQL-99, SQL-2003标准, 以及OLAP扩展。对于刚接触OushuDB的用户来说,入门的门槛极低。
1、与PostgreSQL和GPDB语法兼容
2、支持事务ACID
3、支持标准JDBC, ODBC连接
4、支持存储过程(PL/pgSQL, PL/Python/ target=_blank class=infotextkey>Python et al)
5、支持混合工作负载
6、提供了存储、查询和修改空间数据的能力产品亮点
关于AI支持:
OushuDB集成LittleBoyAI平台,可提供无缝的AI应用能力支持。
1、支持内置机器学习算法库,扩展数据库分析功能
2、支持LittleBoy自动化机器学习,降低AI应用开发的难度
3、提供多种数据转换、数据探索、统计、数据挖掘和机器学习算法
4、针对分布式架构对机器学习算法库进行了优化,易于使用并提升算法性能
随着各种“卡脖子”事件的不断发生,随着国家信创的不断推进。各类技术的完全自主国产化发展必定是未来的主流方向,数据库也不例外。今天的OushuDB已经是在国际数据库竟争中展露头角,未来相信OushuDB能给我们带来更多的惊喜。也希望国内能够有更多的优秀数据库厂家加入这场“战争”。让中国的数据库解决方案走向世界,走向未来。