回看历史,至暗时刻,中华民族始终不乏“挽狂澜于既倒,扶大厦之将倾”的勇气与决心。曾在西征中所向披靡的蒙古铁骑遭到南宋军队的顽强抵抗,尤以崖山战役最为撼动人心——这场保家卫国之战,见证了民族危急存亡之时,十万南宋军民义无反顾、宁死不屈的精神。
穿越历史的迷雾,会发现在没有硝烟的战场上,类似“崖山海战”的严峻考验不胜枚举。以数据库市场为例:作为IT产业的核心基础软件,数据库的技术创新与安全可控至关重要,但长期以来,国外品牌的市场份额占据绝对优势,再叠加纷繁复杂的不确定性因素,数据库的国产化与自主可控势在必行。
巨大的挑战也孕育着难得的机遇。近几年来,国产数据库掀起创业热潮,据统计国内已有数据库企业逾百家,各类产品更是“乱花渐欲迷人眼”。不过,选择开源路线的新兴公司仍为主流,很多数据库产品只是“外壳”不同,“内核”差异甚微。
基于开源产品进行创新,会遇到两大难题:一是无法把控开源的演进节奏和发展方向,二是不能深入理解底层架构逻辑,产品的长期竞争力缺乏支撑。事实上,还可以选择另一条“少有人走的路”,即采用全自研的模式,从基础理论、技术架构到产品研发、场景落地,实现全方位、系统化的自主创新。
这条路充满未知,开拓者的每一步探索都弥足珍贵。崖山数据库(YashanDB)即是其中的典型代表,在创业之初就坚持“每一行代码都掌握在自己的手上”,在自主创新的道路上树立起值得业界借鉴的里程碑。
在近日举办的YashanDB 2023年度产品发布会上,YashanDB首次发布YashanDB for Cluster共享集群、YashanDB for Data Warehouses分布式实时数仓以及YashanDB for GIS空间数据库三大产品形态,并宣布在内核能力、产品形态、生态创新上全面升级,标志着其商业化进程又迈出关键性的一步。
透过YashanDB的进化轨迹,也许会找到国产数据库持续健康发展的基因密码,命运的齿轮在自主创新的润滑下将加速转动。
纵观数据库的发展历程,不难发现原创理论是驱动产业革新的重要力量。从E.F.Codd提出数据关系模型,到J.Gray在共享数据库的一致性和锁的粒度上取得突破,再到L.Lamport发现Lamport逻辑时钟,每一个思想的火花都点亮了数据库的远大前程。
当然,仅有理论创新还不足以达成商业上的成功。在产品研发中,厂商需要解决易用性、可维护性等工程难题,还要面向更多的行业场景打磨产品体系和解决方案,满足不同类型用户日益增长的需求。
YashanDB的创业团队深谙此道,其沿袭贝尔实验室的做法,基于“基础研究—技术开发—新产品生产—市场营销—信息反馈—产品改进”的运行机制,逐步形成“原创理论+领先架构+工程能力”的独特研发模式。
YashanDB产品总监王南
据YashanDB产品总监王南介绍,在探索崭新研发模式的基础上,YashanDB进一步完善发展路径,借助理论算法、关键技术以及行业场景“三驾马车”的协同发力,为国产数据库的突围闯出一条新路。
首先,在理论算法层面,YashanDB融入原创的有界计算和跨模融合计算理论,实现“大数据变小”及破除结构化数据与非结构化数据的壁垒。同时,采用自适应异步并行架构与并发事务调度,达成算法级别的创新。
其次,在关键技术层面,YashanDB V23.1自研优化器、并行与向量化计算能力、分布式计算能力全场景覆盖,使全形态性能大幅提升,Benchmark测试TPC-H性能是国外某著名开源数据库的10倍以上,每节点导入性能达到300MB/s。此外,YashanDB V23.1在ARM服务器等国产硬件平台上持续优化,性能较22.2版本提升30%以上。
尤值一提的是,在行业场景层面,YashanDB基于金融、政务、运营商等多行业的打磨与应用,在兼容性、安全性以及生态工具方面显著增强。YashanDB V23.1 UDT具备灵活扩展能力,DBLink实现多库协同,组合分区支持集中式和分布式,高级特性的兼容程度得到扩展与深化。
显而易见,YashanDB能在较短的时间内,推出自主内核、覆盖多场景的企业级完整产品体系绝非偶然——特别是在共享集群产品形态上取得实质性进展,其意义更是非同寻常。
共享集群技术堪称数据库领域“皇冠上的明珠”,也是Oracle等国际巨头独步江湖的利器。由于企业级核心系统对业务连续性要求颇高,希望故障恢复所需时间短、数据丢失量接近为零,因此能够支撑金融级高可用、性能优异的集群数据库备受青睐。
不容回避的是,从零开始构建共享集群数据库复杂度非常高,成熟周期亦远超其他产品,其间会经历不断的试错、纠偏,这也是诸多新兴数据库公司望而却步的原因。
做难而正确的事,除了坚定不移的决心,还要有扎实的积累。YashanDB的核心团队在数据库领域有十几年的工作经验,针对各种业务诉求做过相关的数据库产品,具备了攻克共享集群“新高地”的基本条件。
YashanDB集群首席架构师孟凡彬表示:“面对时间紧且任务重的状况,我们对产品研发做出阶段性、有节奏的规划。首先,在早期进行内核设计时,充分考虑了向共享集群形态的演进,事务管理、MVCC机制等内核技术天然适合共享集群,为后续的扩展打下坚实基础;其次,针对全局缓存、集群文件系统、高可用集群管理等技术难点进行长达两年的技术项目验证与单点攻克,然后才进入真正的产品化阶段,做好各个组件的适配,进而从全局验证产品的功能、性能以及高可用等能力。”
在从集中式数据库向共享集群产品形态的演进过程中,架构的复杂度呈数量级上升。在整个研发过程中,YashanDB团队也遇到了不少前所未有的挑战,他们采取多种措施渡过了难关。其中,高可用能力和业务连续性是用户最为关心的问题,如何保障系统的稳定性和业务的连续性?YashanDB研发团队通过深度定制和优化,构建了全面有效的故障模式库,系统化梳理所有DDL、DML、DCL流程,同时引入故障注入打点的工程方法,做到“故障定位精确到每一行代码”,极大提升了稳定性;同时为了达到秒级故障透明切换的能力,搭建多场景的故障测试框架,真正做到稳定、可靠、高可用。
经过千磨万砺,面向金融关键行业核心系统的共享集群产品YashanDB for Cluster终于脱颖而出。该形态采用单数据库多实例架构,所有节点之间以强一致性方式实现并发读写,为高端核心业务提供了应用透明的高可用、高扩展、高性能数据库能力。
值得关注的是,在同等硬件条件下,YashanDB双节点集群的TPCC性能达到210万,超主流商业数据库50%;共享集群架构为应用连续性保驾护航,故障恢复时间(RTO)小于20s,数据丢失量(RPO)为零——在发布会现场“拔网线、掐电源”等极端操作下,系统即刻快速恢复,依旧运行平稳。
据了解,金融信息化研究所近期联合YashanDB等多家单位共同启动金融多主数据库应用行动计划,推动国内金融行业核心系统数据库多主架构的升级。在以YashanDB for Cluster为代表的新生势力驱动下,数据库共享集群国产替代的号角已经吹响。
除了共享集群产品,空间数据库也是国产数据库“新高地”上的典型代表,在地理信息系统、智慧城市等建设中发挥着举足轻重的作用。YashanDB for GIS具备对矢量地图、激光云点、栅格、轨迹、遥感影像等空间数据建立统一存储、查询与分析的能力,基于“原生GIS数据库引擎”与“GIS引擎+数据库”两种模式,形成GIS引擎与SDE引擎双形态协同出击,YashanDB 23.1版本的性能是开源空间数据库的3倍以上。
如果说内核能力和产品形态的跃迁是国产数据库实现跨越式成长的必由之路,那么生态体系的创建与进化则是新生势力加速渗透的重要保障。
从生态体系演进的角度看,技术、商业、产业是层层递进的三大阶梯。技术生态是根基,独特的技术更容易被市场认可,吸引开发者纷至沓来;商业生态是中流砥柱,通过孵化多元的合作伙伴,达成多方共赢;产业生态是终极目标,需要政府、高校、各厂商形成合力。
在技术生态方面,YashanDB与产业链上下游企业进行兼容互认测试,并携手麒麟、海光、统信等近30家主流国产软硬件伙伴,聚力突破关键核心技术瓶颈,满足客户对数据和业务创新的一体化需求。
在商业生态维度,YashanDB与不同领域的合作伙伴优势互补、加强协作,共同推动场景落地。在发布会现场,YashanDB与合作伙伴发布了智慧城市、金融核心、可组装企业级PaaS平台、空间数据管理以及数据交互5大行业解决方案。
以金融行业场景为例:YashanDB联合长亮科技提供了一整套数据管理解决方案。该方案以YashanDB为数据库底座,具备性能稳定、金融级高可用、Oracle语法高度兼容、全栈国产化等优势。这将促进金融核心业务、结算、资产等关键应用加速,全面保障银行核心业务系统数据安全。
目前,YashanDB已在金融、政府、央国企、能源等重点行业核心业务系统上线应用,满足用户对高性能、高可用、高安全性的要求。例如:在某银行CRM系统迁移过程中,实现十万行存储的平滑迁移,且大幅降低企业替换改造的成本。
种种迹象表明,YashanDB的商业化进程已进入快车道,其个人版也正式向所有用户和开发者全面开放下载,每一份参与和反馈将是国产数据库迭代升级的原动力。
站在更长远的视角,国产数据库的健康发展还要依托产业生态的鼎力支撑。诚如经济历史学家克里斯·米勒在《芯片战争》中表达的观点,科技冒险、商战故事、大国博弈往往交织在一起,最终胜出者都不是靠单点突破。YashanDB前行的路上离不开政策的扶持、学界的滋养以及伙伴和用户的相伴偕行,美美与共的未来图景值得期待。