不同于历史上的黄金和石油,数据成为了我们新的宝藏,一个驱动社会进步、催生创新的无尽源泉。然而,这些形式各异、复杂纷繁的数据需要一个管理者,一个保险库,一个解析者,这就是数据库的角色。
为了更系统、深入的梳理数据库的发展脉络和最新进展,数据猿采访了多位业界专家,包括星环科技联合创始人刘汪根、PingCAP 创始人兼 CEO 刘奇、达梦数据技术服务中心副总经理胡俊、南大通用GBase 8s产品线总经理崔志伟、酷克数据首席科学家杨胜文等,来共同探寻数据库的价值和未来。
理解任何一个领域的发展方向,首先需要探寻其历史轨迹,数据库也不例外。每一次数据库技术的飞跃,都是对过去需求变迁和技术挑战的回应。因此,只有深入理解数据库的发展历史,我们才能更清晰地洞察其未来的发展趋势,从而探索出新的创新路径,引领数据库技术走向新的高度。
追溯历史,20世纪70年代,有一位名叫埃德加·科德的英国计算机科学家在IBM工作时,受到数据存储和检索的低效率之困扰,他灵光一现,提出了关系模型。从此打开了关系型数据库发展的大门。
基于关系模型,Oracle公司应运而生。这家公司的关系型数据库软件风靡全球,引发了一场数据库革命。此时,另一位英雄Michael Stonebraker教授创建了PostgreSQL,这款数据库具有很多高级功能,如GIS数据存储,进一步丰富了关系型数据库领域。
进入21世纪初,互联网的迅猛发展让数据库面临新的挑战。谷歌公司的工程师们发现传统关系型数据库在大规模数据处理方面的不足。于是,他们提出了一种分布式数据库技术——Bigtable,实现分布式存储数据,提高了处理大规模数据的效率。
与此同时,AWS开发了云数据库服务Amazon RDS,这使得数据库在云端变得更加灵活,降低了企业的运维成本。随后,微软、谷歌、阿里巴巴等科技巨头纷纷效仿,推出了各自的云数据库产品。
在这些年的发展中,数据库领域涌现出各种各样的新技术。许多公司和人物在这个过程中发挥了关键作用,他们的故事成为了数据库领域发展的见证。从关系型数据库到NoSQL,再到NewSQL,数据库技术不断演进。
站在历史的瞭望台上,我们可以看到数据库技术如何顺应时代的潮流,从过去到现在,逐渐形成一个辉煌的脉络。在这条道路上,每一次技术创新和应用的飞跃,都代表了对历史的继承和超越。而今,我们正站在一个新的起点,数据库的发展已经步入一个全新的阶段。
走到历史的分叉口,我们需要对一些关键问题找到合理的答案。目前,数据库领域有两个问题亟需找到答案:分布式数据库最终会一统天下,还是会与集中式数据库长期并存;数据库类型越来越多,最终是走向专库专用,还是多模融合?
为了回答这两个问题,数据猿采访了多位数据库领域的专家。
1、分布式VS集中式数据库
随着互联网的发展和大数据的出现,分布式数据库逐渐成为了数据库的重要发展方向。谈到分布式数据库,业界在一个问题上存在分歧——分布式数据库会最终完全替代集中式数据库,还是这两种数据库会长期并存?
南大通用GBase 8s产品线总经理崔志伟告诉数据猿,“我不认为分布式数据库会最终完全替代集中式的数据库。理由大致如下:
① 分布式数据库和集中式数据库的产生都是有特定的业务场景,既存在互联网的海量数据场景,也存在中小银行的小业务场景,这些业务场景看不到有消失或合并的趋势;
② 分布式数据库的出现还有一个机缘就是国产硬件的性能不足,用分布式数据库分工协作来解决问题。然而,国产的硬件设备也是在飞速进步的,可以逐步解决性能不足的问题;
③ 集中式数据库在特定的业务场景中,仍然存在灵活、快速、简捷、强一致性等优势,分布式数据库遇到跨节点join的时候依然吃力;
我认为未来数据库的发展将会进入一个百花齐放的阶段,不同的业务场景使用不同的数据库产品,各种不同的数据库分工协作来为客户解决问题。比如,在非关系型数据库出现之前,文本、视频等都存储在关系型数据库的大对象类型,现在有了专业的文档数据库;之前还需要考虑对文本搜索的优化,现在很多都在ES中实现。”
对于这个问题,达梦数据技术服务中心副总经理胡俊认为,“分布式数据库会是很重要的方向之一,但分布式数据库有其适用的特定场景,在很多领域仍然可能采用更通用的集中式架构数据库。因此我们认为集中式和分布式是两个赛道,虽然这两个赛道互相之间可能会有一些竞争,但原则上是两个互补的东西。
分布式和集中式实际上并非完全对立的两条技术路线,也没有谁更优于谁的概念,只是使用业务场景不同,匹配的技术架构也就有所不同。客户在选择分布式数据库的时候,应该综合考虑业务模型、技术栈选型、运维成本、产业供应商体系等因素。此外,分布式数据库是重量级的技术,对用户的使用门槛是比较高的,这一点用户也应该综合考虑。
总的来说,我们认为客户在选型时应该不拘泥于数据库的类型,而是选择以实际需求、痛点为导向,寻找能够满足自己实际需求和技术指标的产品解决方案。比如,在客户需求层面,不论客户定义实现其所需功能的数据库为分布式还是集中式,客户在项目实施过程中都可基于通用达梦数据库,按自身实际需求和技术指标,采用不同的系统配置和不同的集群软件搭配方案来构建集中式、分布式或混合搭配使用的数据库实例。”
星环科技联合创始人刘汪根认为,“分布式和集中式分别面对不同的场景,会长期处于并存的状态,但最终分布式数据库会最终完全‘替代’集中式数据库。
分布式数据库有2个特点,一个是可以横向扩展,提供更大的存储和更高的性能,另一个就是可以提供高可用,保证数据和系统安全。对于集中式数据库,在实际生产的时候,用户最起码还是会部署双机来实现高可用和容灾。对于用户来说,由于应用和业务的多样性,用户的数据量会不断地增加,并且都不满足于存数据,都希望能够通过各自各样的方式去分析数据,从数据中去获取价值。所以不管是从存储还是计算,用户对数据库系统的要求越来越高,分布式可以很好地满足这些要求。
从实际系统迭代方向上,用户原先的服务器硬件和数据库软件也会有生命周期,以及面临集中式扩容,一些行业的国产化需求,用户是要考虑替换的。而在替换的时候,是继续用旧技术,还是用新的分布式技术,我相信用户都会逐步采用新技术的。例如,像上面说的,分布式可以横向扩展,就不会有扩展难的问题,提供更大的存储和更高的计算能力,可以满足更多的业务场景。”
2、专库专用VS多模型数据库
随着数据库尤其是非关系型数据库的发展,涌现出大量针对特定应用场景的数据库,典型的包括:
实时数据库:内存存储、事件驱动和流处理等实时数据库的核心技术突破,在低延迟和高吞吐量方面取得重要进展。这使得实时数据库能够快速响应和处理实时数据,应用于金融、物联网和游戏等领域。
时序数据库:时序数据库主要用于存储和查询时间序列数据。核心技术突破包括数据压缩、高效索引和时间窗口查询,应用场景包括物联网、监控系统和金融行业。
图数据库:图数据库以图结构存储和查询数据,适用于处理复杂的关系网络。核心技术突破包括图遍历算法、子图匹配和图分析,应用场景包括社交网络、知识图谱和推荐系统。
列式数据库:列式数据库以列为存储单元,优化了对大量列数据的查询性能。核心技术突破包括列存储、向量化执行和数据压缩,应用场景包括数据仓库、大数据分析和报表系统。
无服务器数据库:无服务器数据库将数据库服务与底层基础设施抽象分离,使用户无需关心服务器和运维。核心技术突破包括弹性伸缩、按需付费和自动化运维,应用场景包括云原生应用和快速原型开发。
GPU加速数据库:GPU加速数据库利用GPU的并行计算能力,加速了数据库的查询和分析性能。核心技术突破包括GPU计算、数据并行处理和内存优化,应用场景包括实时数据分析、人工智能等。
向量数据库:大模型的爆火,也带动了向量数据库的发展。刘汪根指出,不管是通用模型,还是微调出来的行业模型,都存在着一定的局限性,包括实时性、长Token、幻觉等问题。大模型训练所使用的数据包含了如文档、图片、音视频等各种类型的非结构化数据。用户可以通过表示学习的预处理方式将这些数据转化为多维向量,并存储在向量数据库中,从而可以很好地解决上述问题。
面对越来越多的数据库类型,人们不禁要问,以后是每种业务类型实现专库专用,还是这些数据库会走向融合统一,最终用一种通用数据库来满足多样化的数据需求?针对这个问题,数据猿也采访了业界专家。
达梦数据技术服务中心副总经理胡俊认为,“就目前来讲,专库专用,其实是一种发展趋势,因为场景不同,特定数据库的使用效果相差很大;但是否要融合,其表现出的是一个技术发展方向的问题,但问题的本质却是在需求侧关注的几个重点方向:降本增效、数据安全以及数据库对于新技术的支撑作用。从这个角度来讲,是否会走向融合,还是要看需求侧的变化,技术和产品的发展还是要围绕需求进行演化。”
星环科技联合创始人刘汪根认为,“专库还是会专用的,也会逐渐走向融合,但我说的融合并不是说形成一类通用的数据库,而是多模型的融合,也就是多模数据库。
像分析海量数据的关联关系,需要用到图数据库,通过图模型来存储和分析数据,分析性能更高、更直观。而工业物联网场景下时时刻刻产生的海量数据,传统关系型是没法解决的,或者说存储成本太高,分析效率较低,这里就需要专门的时序数据库,来提供高性能的实时数据写入、复杂分析,以及高的压缩率来降低存储成本等。再比如,当前比较火的大模型,就需要专门的向量数据库。
但是,这些为了满足不同场景的不同数据库也存在问题。首先,这些独立的系统,每个都需要单独维护,运维成本就非常高。同时,接口标准也不一致,用户需要学习适配的不同接口,开发成本高。同样的,这些产品也使用了各自独立的计算引擎和存储,数据存储在各自的生态中难以互通,若需要把数据从一个产品导入到另一个产品中,需要通过导入导出,ETL流转效率低,同时也难以保证数据的准确性、一致性和实效性。数据往往在流转过程中导致数据不一致,最终影响业务准确性。
多模数据库就很好地解决了这个问题,用一个统一的平台来处理多种不同的数据模型,对外提供统一的接口。而星环不仅是在接口上做到了统一,计算、存储管理和资源管理框架上都做到了统一。用户仅需要维护一套系统,多种模型的数据进行统一存储管理,一个SQL就可以实现不同数据模型的操作和查询,模型转化流转以及跨模型关联分析,解决了不同模型数据之间的组合使用问题,具有复杂度低、开发成本低、运维成本低、数据处理效率高等优点。”
需要指出的是,数据库虽然有几十年的发展历史,但并不意味着他进入迟暮之年了。正相反,数据库正值“壮年”,本身正处于快速发展过程中,新技术、新理念层出不穷。
那么,数据库要进一步发展,未来核心的突破方向有哪些呢?
达梦数据技术服务中心副总经理胡俊告诉数据猿,“目前,数据库技术快速发展,很多技术方式都值得关注,例如HTAP技术、云化技术、人工智能的技术、新型硬件设备技术等等。现阶段达梦重点关注分布式数据库、HTAP和云数据库技术,这是近两年会落地的技术趋势。AI for DB、多模数据库等趋势仍然需要一些时间。”
在数据猿看来,数据库要获得进一步发展,可以从以下几个方向进行突围:
湖仓一体
湖仓一体是指将数据湖和数据仓库两种技术融合在一起,以实现数据的管理、处理和分析。该技术通过将数据湖的灵活性和数据仓库的结构化管理相结合,解决了传统数据仓库的刚性和数据湖的松散性之间的矛盾。核心技术包括元数据管理、数据集成、数据转换等,目前的挑战主要包括数据一致性、性能和安全等方面。
存算分离
存算分离是指将数据的存储和计算分离开来,以提高数据处理和分析的效率。该技术通过将数据存储在分布式存储系统中,并通过计算引擎进行数据处理和分析,解决了传统数据仓库计算资源紧张、性能瓶颈等问题。核心技术包括分布式存储、计算引擎等,目前的挑战主要包括数据安全、数据一致性、计算任务调度等方面。
流批一体
流批一体是指将数据流处理和批处理相结合,以实现实时数据分析和离线数据分析的融合。该技术通过将数据流处理和批处理的优点相结合,解决了传统数据仓库实时性差、批处理效率低等问题。核心技术包括实时数据处理、批处理引擎等,目前的挑战主要包括数据一致性、计算性能、数据安全等方面。
事务与分析融合
事务与分析融合是指将事务处理和数据分析相结合,以实现在数据处理过程中进行实时数据分析和决策支持。该技术通过将实时数据分析和事务处理结合在一起,解决了传统数据仓库数据分析和事务处理分离的问题。核心技术包括事务处理引擎、实时数据分析等,目前的挑战主要包括性能、数据安全等方面。
AI尤其是大模型与数据库的融合
正如PingCAP创始人兼 CEO 刘奇所说,“AI这次真的要重塑整个软件行业了。AI技术对软件行业主要影响有两个方面,一是代码,一是数据。
AI仅用7个月即完成一半人类写代码的工作,在过去七个月的时间里,Github上新增代码中已经有超过 46% 是由 AI 生成的。如果从软件开发效率的角度看,AI 实际上已经完成差不多一半的人类工作。而在数据方面,用户无需编辑SQL,只要用自然语言描述希望得到什么数据,希望做什么分析,即可图表化自动生成。
AI带来的能力让数据消费门槛变得极低,这也给数据库带来巨大挑战。AI时代下,我们希望提供‘人人可用,开放生态’的数据库。基于此,我们认为未来数据库至少应该是云原生架构,并具备更低成本、弹性扩展、以及规模化数据整合能力。一言以蔽之,数据架构现代化是全球化趋势。”
达梦数据技术服务中心副总经理胡俊指出,“大模型的建立和训练、以及推理应用,是基于海量的数据基础之上才能做到的,数据库系统作为数据存储、管理的核心软件,在这个技术架构中占据重要的地位;如何提高对各种大模型数据类型的支持程度、海量数据处理效率、模型数据安全性、生态适配,降低海量数据存储成本,给数据库系统提供了挑战的同时,也带来了机遇。目前的数据库系统作为传统数据和大数据的重要载体,在大模型领域也有涉及和应用,随着大模型的迅速发展,也会拉动数据库的迅速发展。”
酷克数据首席科学家杨胜文告诉数据猿,“大模型的训练需要依赖海量的数据和强大的算力支持,千亿级参数大模型的推理也对计算资源有较高的要求。目前市面上大部分数据库产品并不能很好的支持大模型的训练和推理。
得益于存算分离、双计算引擎(MPP引擎和ML引擎)、云原生的架构优势,HashData对大模型的训练、微调、推理、应用都有重大的价值。首先,HashData可以对原始海量数据进行高效的存储和管理,并利用强大的数据处理引擎对这些数据进行分析、清洗和变换,最终生成高质量的训练数据。其次,利用HashData强大的ML引擎,可以结合企业数据对大模型进行高效的微调,甚至从头训练大模型。第三,利用HashData内置的向量数据库能力,极大地简化了基于大模型的知识增强的智能应用建设。HashData同时开发了面向数据科学家、数据工程师和应用开发者的数据科学工具箱HashML,使得从数据处理、模型微调到智能应用开发的全流程变得更简单,大幅降低了AI技术应用门槛。”
需要指出的是,以上各个技术方向并不是独立的,而是存在密切的关联。星环科技联合创始人刘汪根认为,数据库技术正在呈现一体化趋势,一体化有几个方面的含义,包括湖仓集一体化、多模处理一体化、交易分析一体化等等。过去,大家都用Hadoop湖+MPP仓的混合架构,这是由于历史的发展以及技术上的局限性形成的,但是随着湖仓一体技术的发展,从技术层面上可以实现了一体化。例如,传统数仓如Teradata的替代方面,很多用户都选择在替代时升级为湖仓一体架构。
多模处理一体化方面,为了满足一些特定场景下的需求而使用不同的数据库类型,这些不同的数据库系统的开发、运维等给用户带来了很大的困扰,因此需要走向一体化,也就是多模数据库。此外,像OLAP和OLTP,其实最早时就是一体化的,后来随着交易和分析业务的增长,逐渐分开发展,现在随着数据库技术的发展又逐渐走向了统一。总之,数据库正在走向一体化,让数据处理走向智能化、平民化,进而实现数据库处理的降本增效。
在纷繁复杂的技术进展中,我们瞥见了未来的端倪,也探寻到了数据库的发展蓝图。就如同在晨曦的破晓中,新的一天即将到来,数据库也在历史与创新的交织中,步入了一个崭新的篇章。
在我们前方,云计算、大数据、人工智能、物联网、区块链、5G,以及其他未知的技术风潮,像潮水一般涌来,不断塑造着数据库的新形态。而数据库,如一艘无惧风浪的航舰,带着我们勇往直前,破浪前行。每一次的航行,都在打开未来的大门。每一次的探索,不仅仅是技术的革新,更重要的是,它将成为我们理解世界、改变世界的新工具,成为我们探索未知、创造未来的新途径。
明天,数据库会怎样改变数字世界?我们又会怎样改变数据库?这是一个充满悬念的问题,也是一个值得期待的答案。
文:一蓑烟雨 / 数据猿