FlinkSQL 数据权限之数据脱敏解决方案

时间：2023-05-25 14:12:54 来源：作者：InfoQ

作者 | HamaWhite

审校| 蔡芳芳

在当今数字化时代，数据已经成为企业和组织中不可或缺的重要资产，包括个人信息、商业机密、财务数据等等。然而，随着数据泄露和安全问题的不断增加，数据脱敏已经成为了一项非常重要的工作。随着以 Flink 为代表的实时数仓的兴起，企业对实时数据安全的需求越来越迫切。但由于 Flink 实时数仓领域发展相对较短，Apache Ranger 尚不支持 FlinkSQL，且依赖 Ranger 会导致系统的部署和运维愈加复杂。

因此，自研出 FlinkSQL 的数据脱敏方案，支持面向用户级别的数据脱敏访问控制，即特定用户只能访问到脱敏后的数据。在技术实现上做到对 Flink 和 Calcite 源码的零侵入，可以快速集成到已有实时平台产品中。

一、基础知识

1.1 数据脱敏

数据脱敏 (Data Masking) 是一种数据安全技术，用于保护敏感数据，以防止未经授权的访问。该技术通过将敏感数据替换为虚假数据或不可识别的数据来实现。例如可以使用数据脱敏技术将信用卡号码、社会安全号码等敏感信息替换为随机生成的数字或字母，以保护这些信息的隐私和安全。

1.2 业务流程

下面用订单表orders的两行数据来举例，示例数据如下：

1.2.1 设置脱敏策略

管理员配置用户、表、字段、脱敏条件，例如下面的配置。

1.2.2 用户访问数据

当用户在 Flink 上查询orders表的数据时，会在底层结合该用户的脱敏条件重新生成 SQL，即让数据脱敏生效。当用户 A 和用户 B 在执行下面相同的 SQL 时，会看到不同的结果数据。

SELECT* FROMorders

用户 A 查看到的结果数据如下，customer_name字段的数据被全部掩盖掉。

用户 B 查看到的结果数据如下，customer_name字段的数据只显示前 4 位，剩下的用 x 代替。

二、Hive 数据脱敏解决方案

在离线数仓工具 Hive 领域，由于发展多年已有 Ranger Column Masking 方案来支持字段数据的脱敏控制，详见参考文献 [1]。下图是在 Ranger 里配置 Hive 表数据脱敏条件的页面，供参考。

但由于 Flink 实时数仓领域发展相对较短，Ranger 还不支持 FlinkSQL，以及依赖 Ranger 的话会导致系统部署和运维过重，因此开始 自研实时数仓的数据脱敏解决工具。当然本文中的核心思想也适用于 Ranger 中，可以基于此较快开发出 ranger-flink 插件。

三、FlinkSQL 数据脱敏解决方案

3.1 解决方案

3.1.1 FlinkSQL 执行流程

可以参考作者文章 [FlinkSQL 字段血缘解决方案及源码]，本文根据 Flink1.16 修正和简化后的执行流程如下图所示。

在CalciteParser进行parse()和validate()处理后会得到一个 SqlNode 类型的抽象语法树 (Abstract Syntax Tree，简称 AST)，本文会针对此抽象语法树来组装行级过滤条件后生成新的 AST，以实现数据脱敏控制。

3.1.2 Calcite 对象继承关系

下面章节要用到 Calcite 中的 SqlNode、SqlCall、SqlIdentifier、SqlJoin、SqlBasicCall 和 SqlSelect 等类，此处进行简单介绍以及展示它们间继承关系，以便读者阅读本文源码。

3.1.3 解决思路

针对输入的 Flink SQL，在CalciteParser进行语法解析 (parse) 和语法校验 (validate) 后生成抽象语法树 (Abstract Syntax Tree，简称 AST) 后，采用自定义Calcite SqlBasicVisitor的方法遍历 AST 中的所有SqlSelect，获取到里面的每个输入表。如果输入表中字段有配置脱敏条件，则针对输入表生成子查询语句，并把脱敏字段改写成CAST(脱敏函数 (字段名) AS 字段类型) AS 字段名, 再通过CalciteParser.parseExpression()把子查询转换成 SqlSelect，并用此 SqlSelect 替换原 AST 中的输入表来生成新的 AST，最后得到新的 SQL 来继续执行。

3.2 详细方案

3.2.1 解析输入表

通过对 Flink SQL 语法的分析和研究，最终出现输入表的只包含以下两种情况:

SELECT 语句的 FROM 子句，如果是子查询，则递归继续遍历。
SELECT ... JOIN 语句的 Left 和 Right 子句，如果是多表 JOIN，则递归查询遍历。

因此，下面的主要步骤会根据 FROM 子句的类型来寻找输入表。

3.2.2 主要步骤

主要通过 Calcite 提供的访问者模式自定义 DataMaskVisitor 来实现，遍历 AST 中所有的 SqlSelect 对象用子查询替换里面的输入表。下面详细描述替换输入表的步骤，整体流程如下图所示。

遍历 AST 中的 SELECT 语句。
判断是否自定义的 SELECT 语句 (由下面步骤 9 生成)，是则跳转到步骤 10，否则继续步骤 3。
判断 SELECT 语句中的 FROM 类型，按照不同类型对应执行下面的步骤 4、5 和 10。
如果 FROM 是 SqlJoin 类型，则分别遍历其左 Left 和 Right 右节点，即执行当前步骤 4 和步骤 6。由于可能是三张表及以上的 Join，因此进行递归处理，即针对其左节点跳回到步骤 3。
如果 FROM 是 SqlBasicCall 类型，还需要判断是否来自子查询，是则跳转到步骤 10 继续遍历 AST，后续步骤 1 会对子查询中的 SELECT 语句进行处理。否则跳转到步骤 7。
递归处理 Join 的右节点，即跳回到步骤 3。
遍历表中的每个字段，如果某个字段有定义脱敏条件，则把改字段改写成格式CAST(脱敏函数 (字段名) AS 字段类型) AS 字段名，否则用原字段名。
针对步骤 7 处理后的字段，构建子查询语句，形如 (SELECT 字段名 1, 字段名 2, CAST(脱敏函数 (字段名 3) AS 字段类型) AS 字段名 3、字段名 4 FROM 表名) AS 表别名。
对步骤 8 的子查询调用CalciteParser.parseExpression()进行解析，生成自定义的 SELECT 语句，并替换掉原 FROM。
继续遍历 AST，找到里面的 SELECT 语句进行处理，跳回到步骤 1。

3.2.3 Hive 及 Ranger 兼容性

在 Ranger 中，默认的脱敏策略的如下所示。通过调研发现 Ranger 的大部分脱敏策略是通过调用 Hive 自带或自定义的系统函数实现的。

由于 Flink 支持 Hive Catalog，在 Flink 能调用 Hive 系统函数。因此，本方案也支持在 Flink SQL 配置 Ranger 的脱敏策略。

四、用例测试

源码地址：https://Github.com/HamaWhiteGG/flink-sql-security

注: 如果用 IntelliJ IDEA 打开源码，请提前安装 Manifold插件。

用例测试数据来自于 CDC Connectors for Apache Flink 官网，本文给orders表增加一个 region 字段，再增加'connector'='print'类型的 print_sink 表，其字段和orders表的一样，数据库建表及初始化 SQL 位于 data/database 目录下。

下载本文源码后，可通过 Maven 运行单元测试，测试用例中的 catalog 名称是hive，database 名称是default。

$cdflink-sql-security $mvn test

详细测试用例可查看源码中的单测RewriteDataMaskTest和ExecuteDataMaskTest，下面只描述两个案例。

4.1 测试 SELECT

4.1.1 输入 SQL

用户 A 执行下述 SQL:

SELECTorder_id, customer_name, product_id, region FROMorders

4.1.2 根据脱敏条件重新生成 SQL

输入 SQL 是一个简单 SELECT 语句，经过语法分析和语法校验后 FROM 类型是SqlBasicCall，SQL 中的表名orders会被替换为完整的hive.default.orders，别名是orders。
由于用户 A 针对字段customer_name定义脱敏条件 MASK(对应函数是脱敏函数是mask)，该字段在流程图中的步骤 8 中被改写为CAST(mask(customer_name) AS STRING) AS customer_name，其余字段未定义脱敏条件则保持不变。
然后在步骤 8 的操作中，表名hive.default.orders被改写成如下子查询，子查询两侧用括号()进行包裹，并且用 AS 别名来增加表别名。

(SELECT order_id, order_date, CAST(mask(customer_name) ASSTRING) AScustomer_name, product_id, price, order_status, region FROM hive.default.orders ) ASorders

4.1.3 输出 SQL 和运行结果

最终执行的改写后 SQL 如下所示，这样用户 A 查询到的顾客姓名customer_name字段都是掩盖后的数据。

SELECT orders.order_id, orders.customer_name, orders.product_id, orders.region FROM( SELECT order_id, order_date, CAST(mask(customer_name) ASSTRING) AScustomer_name, product_id, price, order_status, region FROM hive.default.orders ) ASorders

4.2 测试 INSERT-SELECT

4.2.1 输入 SQL

用户 A 执行下述 SQL:

INSERTINTOprint_sink SELECT* FROMorders

4.2.2 根据脱敏条件重新生成 SQL

通过自定义 Calcite DataMaskVisitor 访问生成的 AST，能找到对应的 SELECT 语句SELECT * FROM orders，注意在语法校验阶段 * 会被改写成表中所有字段。针对此 SELECT 语句的改写逻辑同上，不再阐述。

4.2.3 输出 SQL 和运行结果

最终执行的改写后 SQL 如下所示，注意插入到print_sink表的customer_name字段是掩盖后的数据。

INSERTINTOprint_sink ( SELECT orders.order_id, orders.order_date, orders.customer_name, orders.product_id, orders.price, orders.order_status, orders.region FROM( SELECT order_id, order_date, CAST(mask(customer_name) ASSTRING) AScustomer_name, product_id, price, order_status, region FROM hive.default.orders ) ASorders )

五、参考文献

Apache Ranger Column Masking in Hive(https://docs.cloudera.com/HDPDocuments/HDP3/HDP-3.1.0/authorization-ranger/content/dynamic_resource_based_column_masking_in_hive_with_ranger_policies.html)
FlinkSQL 字段血缘解决方案及源码 (https://github.com/HamaWhiteGG/flink-sql-lineage/blob/mAIn/README_CN.md)
从 SQL 语句中解析出源表和结果表 (https://blog.jrwang.me/2018/parse-table-in-sql)
基于 Flink CDC 构建 MySQL 和 Postgres 的 Streaming ETL(https://ververica.github.io/flink-cdc-connectors/master/content/%E5%BF%AB%E9%80%9F%E4%B8%8A%E6%89%8B/mysql-postgres-tutorial-zh.html)
HiveQL—数据脱敏函数 (https://blog.csdn.NET/CPP_MAYIBO/article/details/104065839)

Tags：数据脱敏点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

Hutool：如何使用一行代码实现数据脱敏？

1. 什么是数据脱敏 1.1 数据脱敏的定义数据脱敏百度百科中是这样定义的：数据脱敏，指对某些敏感信息通过脱敏规则进行数据的变形，实现敏感隐私数据的可靠保护。这样就可以在开发...【详细内容】

2023-08-11　　Search: 数据脱敏点击:(51)　　评论:(0)　　加入收藏

FlinkSQL 数据权限之数据脱敏解决方案

作者 | HamaWhite审校| 蔡芳芳在当今数字化时代，数据已经成为企业和组织中不可或缺的重要资产，包括个人信息、商业机密、财务数据等等。然而，随着数据泄露和安全问题的不断增加...【详细内容】

2023-05-25　　Search: 数据脱敏点击:(94)　　评论:(0)　　加入收藏

聊聊如何自定义数据脱敏

前言什么是数据脱敏数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形，实现敏感隐私数据的可靠保护常用脱敏规则替换、重排、加密、截断、掩码良好的数据脱敏实施1、尽...【详细内容】

2021-12-28　　Search: 数据脱敏点击:(390)　　评论:(0)　　加入收藏

▌简易百科推荐

大数据杀熟何时告别“人人喊打却无可奈何”？

2月7日郑州飞往珠海的航班，不同手机、不同账号搜索该航班显示出不同价格。图源网络有网友近日分享在某平台的购票经历，引发社会广泛关注——用3个账号买同一航班同...【详细内容】

2024-01-30　　　　中国青年网　　Tags:大数据杀熟　点击:(32)　　评论:(0)　　加入收藏

简易百科：到底什么是大数据？

随着互联网的快速发展，大数据已经成为了当今社会最热门的话题之一。那么，到底什么是大数据呢？首先，我们需要明确大数据的定义。大数据是指数据量极大、类型繁多、处理难度高的数...【详细内容】

2024-01-30　　　　简易百科　　Tags:大数据　点击:(40)　　评论:(0)　　加入收藏

数据采集新篇章：AI与大模型的融合应用

开篇在AIGC（人工智能与通用计算）应用中，大型语言模型（LLM）占据着举足轻重的地位。这些模型，如GPT和BERT系列，通过处理和分析庞大的数据集，已经极大地推动了自然语言理解和生成的边界...【详细内容】

2024-01-17　　崔皓　　51CTO　　Tags:数据采集　点击:(51)　　评论:(0)　　加入收藏

挑战 Spark 和 Flink？大数据技术栈的突围和战争

十年的轮回，正如大数据的发展一般，它既是一个轮回的结束，也是崭新的起点。大数据在过去的二十年中蓬勃发展，从无到有，崛起为最具爆炸性的技术领域之一，逐渐演变成为每个企业不可或...【详细内容】

2024-01-17　　InfoQ　　　　Tags:大数据　点击:(40)　　评论:(0)　　加入收藏

分布式存储系统在大数据处理中扮演着怎样的角色？

如果存储节点本身可以定制，则通常会让其支持部分计算能力，以利用数据的亲和性，将部分计算下推到相关的存储节点上。如果存储是云上的 S3 等对象存储，无法定制，则通常会将数据在计...【详细内容】

2023-12-19　　木鸟杂记　　微信公众号　　Tags:大数据　点击:(48)　　评论:(0)　　加入收藏

大数据如何实时拯救生命：车联网的数据分析有助预防交通事故

译者 | 李睿审校 | 重楼车联网(IoV)是汽车行业与物联网相结合的产物。预计车联网数据规模将越来越大，尤其是当电动汽车成为汽车市场新的增长引擎。问题是：用户的数据平台准备...【详细内容】

2023-12-19　　　　51CTO　　Tags:大数据　点击:(41)　　评论:(0)　　加入收藏

利用生成对抗网络进行匿名化数据处理

在互联网时代，数据日益成为人们的生产资料。然而，在某些情况下，我们需要分享数据，但又需要保护个人隐私。这时，匿名化技术就显得尤为重要。本文将介绍利用生成对抗网络进行匿名化...【详细内容】

2023-12-18　　技巧达人小影　　　　Tags:数据处理　点击:(57)　　评论:(0)　　加入收藏

盘点那些常见的数据中心类型，你知道几个？

在数字化潮流的浪潮下，数据中心如同企业的神经系统，关系到业务的稳健运转。而在这个巨大的网络中，各种数据中心类型如雨后春笋般崭露头角。从企业级的个性至云数据中心的虚拟化...【详细内容】

2023-12-07　　数据中心之家　　微信公众号　　Tags:数据中心　点击:(65)　　评论:(0)　　加入收藏

数据中心的七个关键特征

随着信息技术的不断演进，数据中心的可靠性、可扩展性、高效性、安全性、灵活性、管理性和可持续性成为业界探讨的焦点。下面让我们一同深入剖析这些关键特征，了解它们是如何影...【详细内容】

2023-12-06　　数据中心之家　　微信公众号　　Tags:数据　点击:(63)　　评论:(0)　　加入收藏

什么是数据解析？将数据转化为更好的决策

什么是数据解析？数据解析是一门专注于从数据中获取洞察力的学科。它包含数据分析（data analysis）和管理的流程、工具和技术，包括数据的收集、组织和存储。数据解析的主要目的是...【详细内容】

2023-12-06　　计算机世界　　　　Tags:数据解析　点击:(62)　　评论:(0)　　加入收藏

推荐资讯

整治“暗箱操作” 义	网易再牵暴雪的手，实际
注意！密码、验证码都没	将他人商标设为搜索关
打破刚兑：投资者还能相	拜登坐不住了？罕见对美
黄金狂飙如何影响人民	重新审视2008年全球金