您当前的位置:首页 > 电脑百科 > 数据库 > 百科

从适配Oceanbase看分布式数据库运维与传统数据库的差异

时间:2023-10-10 16:12:56  来源:微信公众号  作者:白鳝的洞穴

随着OCEANBASE在金融、证券、运营商、能源等行业的应用越来越广泛,针对OCEANBASE的运维支撑工具的需求也被越来越多的用户提出来了。去年我们开始适配OB的动力来自于与一个金融行业用户的交流,他们对我们的D-SMART支持Oracle的功能表示满意,不过他们目前面临了一些新的问题。那就是目前部分业务系统已经从Oracle迁移到了Oceanbase,但是对于OB的运维,他们感到有些头痛。系统不出问题的时候,或者不出大问题的时候,也不太需要运维人员介入,大部分故障场景会在短时间内自愈。而系统出现一些较为严重的性能问题的时候,运维人员往往是束手无策的,甚至不知道故障可能会持续多长时间。

 

D-SMART支持OCEANBASE的适配工作已经经历了一年多了,当时适配的版本是3.X,不过到了Oceanbase 4.2.1 GA的23年10月份,这个工作还没有彻底完成。通过一个运维平台,不断的积累运维经验,构建大量的自动化预警模型和分析工具,可以有效的增强对OB数据库的运维支撑能力,整个智能化运维的框架是十分成熟的,研发团队对Oceanbase的研究何跟踪也有一两年时间了。因此我们在去年年初开始立项针对OB进行适配的时候,原本以为这项工作会在3-4个月内初步完成,然后去某个用户处磨合。没想到适配OCEANBASE远比我们预料的复杂。分布式数据库与集中式数据库在很多地方都与集中式数据库不同,从而导致运维管理方面的差异是十分巨大的。

 

首先是指标体系的不同,分布式数据库的部署环境是一组服务器,数据库实例也是由一组OBSERVER组成的多个分布式的服务组成。因此指标体系完全不同。对于集中式数据库来说,我们可以关注某个指标,比如每秒CLOG数量。不过对于OB来说,这里就复杂了,因为每个OBSERVER都会有相关的指标。

从适配Oceanbase看分布式数据库运维与传统数据库的差异

在集中式数据库中的一个指标,在分布式数据库中可能会有很多值,分布式数据库集群的节点数量越多,这个指标的值就越多。不仅如此,Oceanbase还支持多租户,每个租户都有独立的指标,因此在一个Oceanbase数据库中,某一个指标的值可能有几十个甚至几百上千个。我们不能仅仅从总值或者平均值去看问题,还要考虑值的均衡性问题和变化趋势。因此运维监控工具需要具备对一组值的处理能力。这涉及到了对D-SMART底层指标处理体系的改造与优化。

从适配Oceanbase看分布式数据库运维与传统数据库的差异

前端界面上显示的值也是要斟酌的,到底把哪个值放上去呢?最大值,平均值?如果放最大值有可能同一行上面的数据来自于多个不同的OBSERVER,数据时不一致的。

 

因为D-SMART最早设计指标体系的时候就学习了互联网企业的经验,支持列表、表格等模式,因此只要在前端显示与后端处理的时候适配一下就可以了,更大的问题还在后面。

 

第二个需要考虑的问题是多租户的问题,Oceanbase是一个从底层到上层都支持多租户的数据库系统。不同的租户之间有着较强的隔离。因此从运维的角度,我们如何来看待集群和租户呢?对于一个数据库来说,从集群下钻到租户,再到某个OBSERVER,可能是我们从集中式数据库沿用下来的思考方式。但是这种模式似乎会让运维工具变得太复杂,让运维人员很难掌握。通过思考,我们决定把集群和租户都看成是一个独立的运维对象。在现实的生产环境中,有些用户对于Oceanbase的运维也是这样的,集群有专门的人员维护,而不同的租户交给不同的使用单位自己来运维。

 

因此我们为OceanBase设计了三种数据库子类型:Oceanbase集群子类、Oceanbase MySQL租户子类和Oceanbase Oracle租户子类。如果仅仅以租户的角度来看待Oceanbase这样的多租户数据库系统还是比较简单的,这个框架完全可以参考Oracle的PDB,事实上root租户我们可以把它看成是Oracle的CDB,我们把root租户看成是Oceanbase的集群,对于集群而言,我们更关注的是节点、资源(总体与可分配资源)、容量、网络、高可用、故障等问题。而不需要去关注负载、并发等方面的问题。

 

Oceanbase数据库的负载、并发、性能等方面的问题可以在租户层面去关注。不过Oceanbase拥有MySQL和Oracle两种兼容性租户,这两种兼容性租户的核心代码是有较大差异的,因此这两种租户在指标方面都不是拉齐的。比如等待事件只有Oracle租户才有,某些MySQL租户的指标在Oracle租户中不见得有,因此我们无法对这两种租户采用相同的指标和健康模型。

 

第三个问题是Oceanbase自身的问题引发的,那就是Oceanbase不同大版本的兼容性问题。这是一个十分值得吐槽的问题,每次Oceanbase大版本升级,其系统视图,指标体系,等待事件都会有较大的变化,运维工具必须做较大的调整。

从适配Oceanbase看分布式数据库运维与传统数据库的差异

第三个问题叠加第二个问题,让Oceanbase的智能模型构建也变得复杂了,考虑到目前Oceanbase的大多数用户还是在使用3.x版本,因此我们必须对3.x版本进行支持。2.x版本的支持可能要往后放一放了,因为2.x和3.x版本的差异依然巨大。在这种情况下,健康模型要根据三种子类分别根据4.X/3.X版本进行个性化定制,目前通过7个模型来覆盖这些版本。

3.x和4.x版本之间的差异远远比增加一倍的健康模型要复杂的多,指标体系中也存在了大量的不兼容的指标,甚至描述同一个问题的指标会出现2个,一个代表4.X版本,一个代表3.x版本,而二者无法完全兼容,因为含义并不一定完全一致,如果用同一个指标来表示,很容易产生误解。

 

第四个问题是集群与服务器节点之间的拓扑关系问题。一套大型的Oceanbase数据库可能由数十个甚至上百个节点组成,并且上面跑了数十个租户,这种拓扑关系十分复杂。虽然租户之间但是他们依然存在关联关系,因为他们共享集群中的所有服务器。服务器出现故障或者性能问题,可能会导致集群和租户出现出现问题。因此我们在运维Oceanbase的时候依然必须关注服务器的健康。但是把服务器如何被纳入监管呢?

从适配Oceanbase看分布式数据库运维与传统数据库的差异

最终我们的方案选择了服务器在运维管理台上隐身,通过集群拓扑入口来统一监控集群所依赖的服务器的方案。服务器出现异常时,健康模型与故障模型会发现其问题并主动报警,但是服务器并不出现在数据实例的监控清单里。不过在集群和租户的集群拓扑里我们可以看到所有服务器的健康状态,如果需要,可以进行下钻。采用这种方式后,当服务器没有故障或者隐患时,我们可以不去关注服务器,只要关注租户的健康,而当服务器存在隐患时,我们可以获得告警,并且有入口可以去做诊断分析。

经过这一年多与Oceanbase的深度接触,我们找到了一种对复杂的多租户分布式数据库的运维监控与故障定位的方法,Oceanbase专版的发布后,我们会邀请客户一起来进行测试,并通过对用户现场数据的分析,丰富故障模型,完善智能基线,并积累更多的运维知识工具。通过数年的积累,我想Oceanbase的运维知识积累会一步步的丰富起来。



Tags:Oceanbase   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
OceanBase这次把我惊到了!
我刚开始工作时做一个OA系统,业务也比较简单,用户数也很少,数据很“单纯”,一个SQL Server数据库感觉就绰绰有余了。后来互联网大爆发,尤其是移动互联网到来以后,数据越来越多,越来...【详细内容】
2023-11-29  Search: Oceanbase  点击:(180)  评论:(0)  加入收藏
从适配Oceanbase看分布式数据库运维与传统数据库的差异
随着OCEANBASE在金融、证券、运营商、能源等行业的应用越来越广泛,针对OCEANBASE的运维支撑工具的需求也被越来越多的用户提出来了。去年我们开始适配OB的动力来自于与一个金...【详细内容】
2023-10-10  Search: Oceanbase  点击:(291)  评论:(0)  加入收藏
如何在Mac、Windows上部署OceanBase?看完这个就能秒懂!
OceanBase 在性能、扩展性,以及为企业用户提供的稳定可靠、可扩展的服务等优势,想必大家都心知肚明了。然而,对于广大的开发者来说,Mac、Windows如何部署OceanBase,并能流畅体验,...【详细内容】
2023-03-10  Search: Oceanbase  点击:(198)  评论:(0)  加入收藏
Oracle 到OceanBase如何进行数据迁移?金融客户给出了真实反馈
对金融企业而言,系统架构从集中式转向分布式是大势所趋。在数据库层面,要从单机数据库转向分布式数据库虽极具诱惑,但更换数据库,企业决策依然会非常谨慎,因为涉及到巨大的风险和...【详细内容】
2023-02-27  Search: Oceanbase  点击:(184)  评论:(0)  加入收藏
携程MySQL迁移OceanBase最佳实践
OceanBase作为分布式数据库,组件多、运维环境复杂是痛点。我们后续将基于现有的日志收集工具和分析工具,完成链路式的问题诊断,更精准地定位性能问题、集群内部任务问题等。一...【详细内容】
2023-02-09  Search: Oceanbase  点击:(162)  评论:(0)  加入收藏
分布式关系数据库OceanBase与TiDB哪个更好
背景2021年6月1日,蚂蚁集团开源 OceanBase 代码,这款连续两年占领 TPC-C 榜首的数据库产品再次拥抱开源。而此时,在开源社区国产数据库的赛道上还有另外一位明星选手:TiDB。同为...【详细内容】
2022-10-24  Search: Oceanbase  点击:(2325)  评论:(0)  加入收藏
OceanBase 数据采集
1、安装oblogproxyyum install -y yum-utils yum-config-manager --add-repo https://mirrors.aliyun.com/oceanbase/OceanBase.repo yum install -y oblogproxy # oblogp...【详细内容】
2022-10-24  Search: Oceanbase  点击:(436)  评论:(0)  加入收藏
中国人民大学队获得“OceanBase数据库大赛”冠军
“从0到1,系统地打造一个完整的数据库”,这可以说是数据库大赛领域的新高度。5月10日,作为国内首个分布式数据库内核开发大赛,“OceanBase数据库大赛”公布获奖名单,来自中国人民...【详细内容】
2022-05-10  Search: Oceanbase  点击:(339)  评论:(0)  加入收藏
蚂蚁开源 OceanBase,开源分布式数据库又迎新玩家
今天是六一儿童节,蚂蚁选择在今天开源 OceanBase,想必是给各位分布式数据库用户送上的儿童节礼物吧!昨日凌晨蚂蚁已将代码推送到 GitHub:https://github.com/oceanbase/oceanb...【详细内容】
2021-06-02  Search: Oceanbase  点击:(427)  评论:(0)  加入收藏
OceanBase开源,11张图带你了解分布式数据库的核心知识
蚂蚁集团自研数据库OceanBase已经开源,这对国产分布式数据库来说,是一个重磅消息。一直以来OceanBase作为商业数据库,披露的技术细节并不多,以后又多了一个可以拿来研究的优秀...【详细内容】
2021-06-02  Search: Oceanbase  点击:(450)  评论:(0)  加入收藏
▌简易百科推荐
向量数据库落地实践
本文基于京东内部向量数据库vearch进行实践。Vearch 是对大规模深度学习向量进行高性能相似搜索的弹性分布式系统。详见: https://github.com/vearch/zh_docs/blob/v3.3.X/do...【详细内容】
2024-04-03  京东云开发者    Tags:向量数据库   点击:(4)  评论:(0)  加入收藏
原来 SQL 函数是可以内联的!
介绍在某些情况下,SQL 函数(即指定LANGUAGE SQL)会将其函数体内联到调用它的查询中,而不是直接调用。这可以带来显著的性能提升,因为函数体可以暴露给调用查询的规划器,从而规划器...【详细内容】
2024-04-03  红石PG  微信公众号  Tags:SQL 函数   点击:(3)  评论:(0)  加入收藏
如何正确选择NoSQL数据库
译者 | 陈峻审校 | 重楼Allied Market Research最近发布的一份报告指出,业界对于NoSQL数据库的需求正在持续上升。2022年,全球NoSQL市场的销售额已达73亿美元,预计到2032年将达...【详细内容】
2024-03-28    51CTO  Tags:NoSQL   点击:(13)  评论:(0)  加入收藏
为什么数据库连接池不采用 IO 多路复用?
这是一个非常好的问题。IO多路复用被视为是非常好的性能助力器。但是一般我们在使用DB时,还是经常性采用c3p0,tomcat connection pool等技术来与DB连接,哪怕整个程序已经变成以...【详细内容】
2024-03-27  dbaplus社群    Tags:数据库连接池   点击:(12)  评论:(0)  加入收藏
八个常见的数据可视化错误以及如何避免它们
在当今以数据驱动为主导的世界里,清晰且具有洞察力的数据可视化至关重要。然而,在创建数据可视化时很容易犯错误,这可能导致对数据的错误解读。本文将探讨一些常见的糟糕数据可...【详细内容】
2024-03-26  DeepHub IMBA  微信公众号  Tags:数据可视化   点击:(6)  评论:(0)  加入收藏
到底有没有必要分库分表,如何考量的
关于是否需要进行分库分表,可以根据以下考量因素来决定: 数据量和负载:如果数据量巨大且负载压力较大,单一库单一表可能无法满足性能需求,考虑分库分表。 数据增长:预估数据增长...【详细内容】
2024-03-20  码上遇见你  微信公众号  Tags:分库分表   点击:(13)  评论:(0)  加入收藏
在 SQL 中写了 in 和 not in,技术总监说要炒了我……
WHY?IN 和 NOT IN 是比较常用的关键字,为什么要尽量避免呢?1、效率低项目中遇到这么个情况:t1表 和 t2表 都是150w条数据,600M的样子,都不算大。但是这样一句查询 ↓select *...【详细内容】
2024-03-18  dbaplus社群    Tags:SQL   点击:(5)  评论:(0)  加入收藏
应对慢SQL的致胜法宝:7大实例剖析+优化原则
大促备战,最大的隐患项之一就是慢SQL,对于服务平稳运行带来的破坏性最大,也是日常工作中经常带来整个应用抖动的最大隐患,在日常开发中如何避免出现慢SQL,出现了慢SQL应该按照什...【详细内容】
2024-03-14  京东云开发者    Tags:慢SQL   点击:(4)  评论:(0)  加入收藏
过去一年,我看到了数据库领域的十大发展趋势
作者 | 朱洁策划 | 李冬梅过去一年,行业信心跌至冰点2022 年中,红衫的一篇《适应与忍耐》的报告,对公司经营提出了预警,让各个公司保持现金流,重整团队,想办法增加盈利。这篇报告...【详细内容】
2024-03-12    InfoQ  Tags:数据库   点击:(26)  评论:(0)  加入收藏
SQL优化的七个方法,你会哪个?
一、插入数据优化 普通插入:在平时我们执行insert语句的时候,可能都是一条一条数据插入进去的,就像下面这样。INSERT INTO `department` VALUES(1, '研发部(RD)', &#39...【详细内容】
2024-03-07  程序员恰恰  微信公众号  Tags:SQL优化   点击:(19)  评论:(0)  加入收藏
站内最新
站内热门
站内头条