阿里出品开源数据同步神器—canal

时间：2019-08-30 08:57:46 来源：作者：

前言

如今大型的IT系统中，都会使用分布式的方式，同时会有非常多的中间件，如redis、消息队列、大数据存储等，但是实际核心的数据存储依然是存储在数据库，作为使用最广泛的数据库，如何将MySQL的数据与中间件的数据进行同步，既能确保数据的一致性、及时性，也能做到代码无侵入的方式呢？如果有这样的一个需求，数据修改后，需要及时的将mysql中的数据更新到elasticsearch,我们会怎么进行实现呢？

数据同步方案选择

针对上文的需求，经过思考，初步有如下的一些方案：

代码实现
针对代码中进行数据库的增删改操作时，同时进行elasticsearch的增删改操作。
mybatis实现
通过mybatis plugin进行实现，截取sql语句进行分析，针对insert、update、delete的语句进行处理。显然，这些操作如果都是单条数据的操作，是很容易处理的。但是，实际开发中，总是会有一些批量的更新或者删除操作，这时候，就很难进行处理了。
Aop实现
不管是通过哪种Aop方式，根据制定的规则，如规范方法名，注解等进行切面处理，但依然还是会出现无法处理批量操作数据的问题。
logstash
logstash类似的同步组件提供的文件和数据同步的功能，可以进行数据的同步，只需要简单的配置就能将mysql数据同步到elasticsearch，但是logstash的原理是每秒进行一次增量数据查询，将结果同步到elasticsearch，实时性要求特别高的，可能无法满足要求。且此方案的性能不是很好，造成资源的浪费。

那么是否有什么更好的方式进行处理吗？mysql binlog同步，实时性强，对于应用无任何侵入性，且性能更好，不会造成资源浪费，那么就有了我今天的主角——canal

canal

介绍

canal 是阿里巴巴的一个开源项目，基于JAVA实现，整体已经在很多大型的互联网项目生产环境中使用，包括阿里、美团等都有广泛的应用，是一个非常成熟的数据库同步方案，基础的使用只需要进行简单的配置即可。

canal是通过模拟成为mysql 的slave的方式，监听mysql 的binlog日志来获取数据，binlog设置为row模式以后，不仅能获取到执行的每一个增删改的脚本，同时还能获取到修改前和修改后的数据，基于这个特性，canal就能高性能的获取到mysql数据数据的变更。

使用

canal的介绍在官网有非常详细的说明，如果想了解更多，大家可以移步官网（https://github.com/alibaba/canal）了解。我这里补充下使用中不太容易理解部分。

canal的部署主要分为server端和client端。

server端部署好以后，可以直接监听mysql binlog,因为server端是把自己模拟成了mysql slave，所以，只能接受数据，没有进行任何逻辑的处理，具体的逻辑处理，需要client端进行处理。

client端一般是需要大家进行简单的开发。https://github.com/alibaba/canal/wiki/ClientAPI 有一个简单的示例，很容易理解。

canal Adapter

为了便于大家的使用，官方做了一个独立的组件Adapter，Adapter是可以将canal server端获取的数据转换成几个常用的中间件数据源，现在支持kafka、rocketmq、hbase、elasticsearch，针对这几个中间件的支持，直接配置即可，无需开发。上文中，如果需要将mysql的数据同步到elasticsearch，直接运行 canal Adapter，修改相关的配置即可。

常见问题

无法接收到数据，程序也没有报错？
一定要确保mysql的binlog模式为row模式，canal原理是解析Binlog文件，并且直接中文件中获取数据的。
Adapter 使用无法同步数据？
按照官方文档，检查配置项，如sql的大小写，字段的大小写可能都会有影响，如果还无法搞定，可以自己获取代码调试下，Adapter的代码还是比较容易看懂的。

canal Adapter elasticsearch 改造

因为有了canal和canal Adapter这个神器，同步到elasticsearch、hbase等问题都解决了，但是自己的开发的过程中发现，Adapter使用还是有些问题，因为先使用的是elasticsearch同步功能，所以对elasticsearch进行了一些改造：

elasticsearch初始化

一个全新的elasticsearch无法使用，因为没有创建elasticsearch index和mApping,增加了对应的功能。

elasticsearch配置文件mapping节点增加两个参数：

enablefieldmap 是否需要自动生成fieldmap，默认为false,如果需要启动的时候就生成这设置为true,并且设置

fieldmap,类似elasticsearch mapping中每个字段的类型。

esconfig bug处理

代码中获取binlog的日志处理时，必须要获取数据库名，但是当获取binlog为type query时，是无法获取

数据库名的，此处有bug，导致出现 "Outer adapter write failed" ,且未输出错误日志，修复此bug.

后续计划

增加rabbit MQ的支持
增加redis的支持

Tags：canal 点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com)，我们将及时更正、删除，谢谢。

▌相关推荐

Canal 配置监听多数据源bing-log 日志

部署mysql数据源文档：CentOS7 yum方式安装MySQL5.7.note链接：http://note.youdao.com/noteshare?id=38744e6dee57ec85864991af48440537 [mysqld] log-bin=mysql-bin # 开启 bi...【详细内容】

2021-06-25　　Tags: canal 点击:(145)　　评论:(0)　　加入收藏

Canalys：2020年Q2印度智能手机出货量减少近50%

【手机中国新闻】据外媒GSMArena消息，Canalys的一份最新报告数据显示，2020年第二季度印度智能手机市场相比去年同比减少了一半的出货量。在疫情封锁期间，印度国内的智能手机被...【详细内容】

2020-07-20　　Tags: canal 点击:(70)　　评论:(0)　　加入收藏

阿里开源MySQL中间件Canal快速入门

前言距离上一篇文章发布又过去了两周，这次先填掉上一篇秒杀系统文章结尾处开的坑，介绍一下数据库中间件Canal的使用。「Canal用途很广，并且上手非常简单，小伙伴们在平时完成公...【详细内容】

2020-05-10　　Tags: canal 点击:(37)　　评论:(0)　　加入收藏

基于 Canal 和 Kafka 实现 MySQL 的 Binlog 近实时同步

前提近段时间，业务系统架构基本完备，数据层面的建设比较薄弱，因为笔者目前工作重心在于搭建一个小型的数据平台。优先级比较高的一个任务就是需要近实时同步业务系统的数据（包括...【详细内容】

2020-04-02　　Tags: canal 点击:(162)　　评论:(0)　　加入收藏

阿里出品开源数据同步神器—canal

前言如今大型的IT系统中，都会使用分布式的方式，同时会有非常多的中间件，如redis、消息队列、大数据存储等，但是实际核心的数据存储依然是存储在数据库，作为使用最广泛的数据库，如...【详细内容】

2019-08-30　　Tags: canal 点击:(327)　　评论:(0)　　加入收藏

▌简易百科推荐

深入理解glibc malloc：malloc() 与 free() 原理图解

本文分为三个等级自顶向下地分析了glibc中内存分配与回收的过程。本文不过度关注细节，因此只是分别从arena层次、bin层次、chunk层次进行图解，而不涉及有关指针的具体操作。前...【详细内容】

2021-12-28　　linux技术栈　　　　Tags:glibc 　点击:(3)　　评论:(0)　　加入收藏

最完整的Vue教程-从零开始编写可视化大屏

摘要（OF作品展示）OF之前介绍了用python实现数据可视化、数据分析及一些小项目，但基本都是后端的知识。想要做一个好看的可视化大屏，我们还要学一些前端的知识（vue），网上有很多比...【详细内容】

2021-12-27　　项目与数据管理　　　　Tags:Vue 　点击:(2)　　评论:(0)　　加入收藏

程序的执行流程和开发工具介绍

程序是如何被执行的&emsp;&emsp;程序是如何被执行的？许多开发者可能也没法回答这个问题，大多数人更注重的是如何编写程序，却不会太注意编写好的程序是如何被运行，这并不是一个好...【详细内容】

2021-12-23　　IT学习日记　　　　Tags:程序　点击:(9)　　评论:(0)　　加入收藏

单点登录(SSO)看这一篇还不够！这次不慌了

阅读收获✔️1. 了解单点登录实现原理✔️2. 掌握快速使用xxl-sso接入单点登录功能一、早期的多系统登录解决方案单系统登录解决方案的核心是cookie，cookie携带会话id在浏览器...【详细内容】

2021-12-23　　程序yuan　　　　Tags:单点登录( 　点击:(8)　　评论:(0)　　加入收藏

手把手教你构建一个简单的Eclipse RCP应用

下载Eclipse RCP IDE如果你电脑上还没有安装Eclipse，那么请到这里下载对应版本的软件进行安装。具体的安装步骤就不在这赘述了。创建第一个标准Eclipse RCP应用（总共分为六步）1...【详细内容】

2021-12-22　　阿福ChrisYuan　　　　Tags:RCP应用　点击:(7)　　评论:(0)　　加入收藏

浅析 Token 价值的意义及来源

今天想简单聊一聊 Token 的 Value Capture，就是币的价值问题。首先说明啊，这个话题包含的内容非常之光，Token 的经济学设计也可以包含诸多问题，所以几乎不可能把这个问题说的清...【详细内容】

2021-12-21　　唐少华TSH　　　　Tags:Token 　点击:(10)　　评论:(0)　　加入收藏

在VUE中实现效果"换一换"功能

实现效果：假如有10条数据，分组展示，默认在当前页面展示4个，点击换一批，从第5个开始继续展示，到最后一组，再重新返回到第一组 data() { return { qList: [], //处理后...【详细内容】

2021-12-17　　Mason程　　　　Tags:VUE 　点击:(14)　　评论:(0)　　加入收藏

阿里资深软件测试工程师总结的这几点，让小白轻松搞懂性能调优

什么是性能调优？(what) 为什么需要性能调优？(why) 什么时候需要性能调优？(when) 什么地方需要性能调优？(where) 什么时候来进行性能调优？(who) 怎么样进行性能调优？(How) 硬件配...【详细内容】

2021-12-16　　软件测试小p　　　　Tags:性能调优　点击:(20)　　评论:(0)　　加入收藏

抖音防烧屏脚本 – Tasker 脚本分享，适用于 OLED 屏幕

Tasker 是一款适用于 Android 设备的高级自动化应用，它可以通过脚本让重复性的操作自动运行，提高效率。不知道从哪里听说的抖音 app 会导致 OLED 屏幕烧屏。于是就现学现卖，自...【详细内容】

2021-12-15　　ITBang　　　　Tags:抖音防烧屏　点击:(25)　　评论:(0)　　加入收藏

Rust 核心团队“有毒”

11 月 23 日，Rust Moderation Team（审核团队）在 GitHub 上发布了辞职公告，即刻生效。根据公告，审核团队集体辞职是为了抗议 Rust 核心团队（Core team）在执行社区行为准则和标准上...【详细内容】

2021-12-15　　InfoQ　　　　Tags:Rust 　点击:(25)　　评论:(0)　　加入收藏

推荐资讯

聊聊如何自定义数据脱	河南人到底有多爱吃面
人称“犬中四煞”的4	离婚后，约定每月给孩子
“三皇五帝”分别是哪	印度低种姓群体如何翻
日本研发“飞行摩托”	2021年Steam最畅销游

无相关信息