Lambda架构已死，数据湖必将是风口

时间：2021-07-21 11:23:05 来源：作者：爱生活的码农

目前大数据架构已经走向了数据湖时代，无论是单纯的批处理模式，还是同时支持实时和离线数据处理的Lambda架构都已经过时。均不再适应现在大数据的业务发展需要。

一 Lambda架构

相信现在还有很多公司公司的数据架构仍然是Lambda架构，它解决了这些公司大数据的离线和实时数据处理，一个典析的Lambda架构如下图所示：

Lambda架构

从底层的数据源开始，通过Kafka、Flume等大数据组件，将各种各样的数据同步到大数据平台，然后分成两条线进行计算。一条线进入离线批量数据处理平台（Spark、Hive、MapReduce等），去计算T+1或者H+1的业务指标，这些指标需要T+1或者H+1才能看到；另外一条线是进入到实时数据处理平台（Flink、SparkStreaming等），去计算实时统计指标。

经过多年的发展，Lambda架构比较稳定，能满足过去的应用场景。但是它有很多致命的弱点：

1.1 数据口径不一致问题

因为离线和实时计算走的是两个完全不同的代码，算出来的结果往往不同，可能会当天看到一个结果数据，第二天发现数据变成了。

1.2 T+1离线严重超时

像新浪微博这种体量的公司，每天有400TB+的数据写入大数据平台，而且数据在不断地增加。我们经常会发现在夜间3-4个小时内，离线程序执行不完，不能保证数据在上班之前准时生成。尤其是在夜间发生故障之后，白天的数据产出时间更加难以把控。

1.3 需要维护两套代码

每次数据源有变化，或者业务方有新的需求。都要修改两次业务逻辑代码，既要修改离线的ETL任务，又要修改流式任务，开发周期很长（工作量是双倍），人力成本比较大。

为了解决Lambda架构的痛点，就产生了KAppa架构，相信大家对这个架构也非常熟悉。

二 Kappa架构

针对Lambda架构需要维护两套程序的缺点，后面产生了Kappa架构。Kappa架构的核心思想是，改进流计算系统来解决全量数据，让实时和离线处理过程采用同一套代码。Kappa架构的初衷是，只有在必要的时候才会对历史数据进行重新计算。下图是Kappa架构模型：

Kappa架构

Kappa架构也不是完美的，它也有很多问题。

2.1 链路更加混乱复杂

首先，我们需要借用Kafka来构建实时场景，但是如果需要对ODS层数据做进一步的分析时，就要接入Flink计算引擎把数据写入到DWD层的Kafka，同样也会将一部分结果数据写入到DWS层的Kafka。但是，如果想做简单的数据分析时，又要将DWD和DWS层的数据写入到ClickHouse、ES、MySQL或者是Hive里做进一步分析，这无疑带来了链路的复杂性。

2.2 数据一致性受到挑战

其次，Kappa架构是严重依赖于消息队列的，我们知道消息队列本身的准确性严格依赖它上游数据的顺序，但是，消息队列越多，发生乱序的可能性越大。通常情况下，ODS层的数据是绝对准确的，把ODS层数据经过计算之后写入到DWD层时就会产生乱序，DWD到DWS更容易产生乱序，这样的数据不一致性问题非常大。

那么有没有一种架构，既能满足实时性的需求，又能满足离线计算的需求，同时还能减轻运营开发成本？解决Kappa架构的痛点呢？

2.3 实时数据仓库建设需求

是否有一种技术，既能够保证数据高效的回溯能力，支持数据更新，又能够实现数据的流批读写，并且还能够实现分钟级别的数据接入。

这也是建设实时数据仓库的迫切需要，实际上需要对Kappa架构进行改进升级，以解决Kappa架构中遇到的问题，接下来我们会进一步探讨数据湖技术--Iceberg。

实时数仓的要求

三 Flink+Iceberg构建实时数仓

3.1 准实时数据仓库分析系统

我们知道Iceberg支持读写分离，又支持并发读、增量读、合并小文件，而且还能做到秒级/分钟级的数据延迟。我们基于Iceberg这些优势，采用Flink+Iceberg的方式构建了流批一体化的实时数据仓库。

Flink+Iceberg架构

在数据仓库处理层，可以用 presto 进行一些简单的查询，因为 Iceberg 支持 Streaming read，所以在系统的中间层也可以直接接入 Flink，直接在中间层用 Flink 做一些批处理或者流式计算的任务，把中间结果做进一步计算后输出到下游。

3.2 采用Iceberg替代Kafka实时数仓的优劣势

升级后的问题

四未来规划

4.1 Iceberg 内核能力提升

Row-level delete 功能。目前社区还不支持行级别的删除功能，Iceberg 当前只支持 copy on write 的 update 的能力。如果要真正地构建一个实时数据仓库，还是需要一个高效的 merge on read 的 update 能力。我们会继续根据社区的更新动态，逐步迭代升级。
建立统一索引加速数据检索。期待社区会有一个完善的统一索引加速功能。

4.2 内部大数据平台升级

希望借助Alluxio构建一个数据湖加速功能，以便在查询层实现秒级分析功能。

建立自动Schema建表的功能。

和所有业务系统打通，逐步迁移完成所有业务线的数据湖建设。

Tags：数据湖点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com)，我们将及时更正、删除，谢谢。

▌相关推荐

Lambda架构已死，数据湖必将是风口

目前大数据架构已经走向了数据湖时代，无论是单纯的批处理模式，还是同时支持实时和离线数据处理的Lambda架构都已经过时。均不再适应现在大数据的业务发展需要。一 Lambda架构...【详细内容】

2021-07-21　　Tags: 数据湖点击:(84)　　评论:(0)　　加入收藏

新浪微博的实时数据湖建设实践

一摘要Apache Flink是目前大数据领域最流行的流批一体化计算引擎，而数据湖技术也是互联网时代的产物，以Iceberg、Hudi和Delta为代表的数据湖技术应运而生。Iceberg目前已经提...【详细内容】

2021-07-19　　Tags: 数据湖点击:(136)　　评论:(0)　　加入收藏

Apache四个大型开源数据和数据湖系统

四个大型数据和数据湖的大型Apache系统，Apache Shardingsphere，Apache冰山，Apache Hudi和Apache IotdB 管理大数据所需的许多功能是其中一些是事务，数据突变，数据校正，流媒体支持，...【详细内容】

2021-03-09　　Tags: 数据湖点击:(242)　　评论:(0)　　加入收藏

数据仓库、数据集市、数据湖、数据中台这些概念，终于整明白了

这几年的数据领域出现好多的概念，例如：人工智能、物联网、边缘计算、数据治理、数据湖、数据中台……可谓是“百花齐放”！一时间大家都在提新概念，但却不是所有人都...【详细内容】

2021-02-25　　Tags: 数据湖点击:(152)　　评论:(0)　　加入收藏

阿里云首次揭秘如何构建云原生数据湖体系

大数据文摘出品作者：无谓、铁杰、周皓、亦龙、扬清 “数据湖”正在被越来越多人提起，尽管定义并不统一，但企业们都已纷纷下水实践，无论是AWS还是阿里云、华为。我们认为：数据湖...【详细内容】

2020-09-25　　Tags: 数据湖点击:(125)　　评论:(0)　　加入收藏

车企转型指南：从 0 到 1 搭建云上数据湖

前言从 2018 年起，整个汽车行业处于相对低迷的状态，无论是政策导向或是外资引入的放宽，这些都在无形中加速国内车企的转型步伐。除此之外，互联网新势力不断加码入场、消费者依赖...【详细内容】

2020-08-14　　Tags: 数据湖点击:(82)　　评论:(0)　　加入收藏

数据湖到底是什么湖？

数据作为一项重要资产，已经成为企业的共识，为了更好地存储数据、挖掘数据，企业需要：· 一个超级大的存储库，对数据进行长期的原样的存储；· 能够对这些数据高效地管...【详细内容】

2020-08-10　　Tags: 数据湖点击:(60)　　评论:(0)　　加入收藏

数据仓库、数据湖、流批一体，终于有大神讲清楚了

作者：蒋晓伟（量仔）阿里云研究员金晓军(仙隐) 阿里云高级技术专家摘要数据仓库，数据湖，包括Flink社区提的流批一体，它们到底能解决什么问题？今天将由阿里云研究员从解决业务问题出...【详细内容】

2020-06-23　　Tags: 数据湖点击:(141)　　评论:(0)　　加入收藏

+CarbonData，华为云智能数据湖让数据处理飞起来

随着5G、AI、IoT等技术越来越普及，企业数据量增大，新的数据业务层出不穷，企业对数据分析的灵活性、性能、成本要求越来越高，基于传统大数据Hadoop系统搭建的数据分析平台已无法...【详细内容】

2020-06-21　　Tags: 数据湖点击:(83)　　评论:(0)　　加入收藏

▌简易百科推荐

浅谈大数据在电力营销系统中的应用及工程实例解析

张欣安科瑞电气股份有限公司上海嘉定 201801 摘要：随着电力行业各系统接入，海量数据涌现，如何利用电网信息化中大量数据，对客户需求进行判断分析，服务于营销链条，提升企业市场竞...【详细内容】

2021-12-14　　安科瑞张欣　　　　Tags:大数据　点击:(9)　　评论:(0)　　加入收藏

大数据时代，我们应该拥有怎样的数据分析思维？

1、什么是数据分析结合分析工具，运用数据分析思维，分析庞杂数据信息，为业务赋能。 2、数据分析师工作的核心流程：（1）界定问题：明确具体问题是什么；●what 发生了什么（是什么）●why 为...【详细内容】

2021-12-01　　逆风北极光　　　　Tags:大数据　点击:(25)　　评论:(0)　　加入收藏

快速汇总分析大批量数据

在实际工作中，我们经常需要整理各个业务部门发来的数据。不仅分散，而且数据量大、格式多。单是从不同地方汇总整理这些原始数据就花了大量的时间，更不用说还要把有效的数据收集...【详细内容】

2021-11-30　　百数　　　　Tags:数据　点击:(21)　　评论:(0)　　加入收藏

一文读懂十大数据存储加密技术

数据作为新的生产要素，其蕴含的价值日益凸显，而安全问题却愈发突出。密码技术，是实现数据安全最经济、最有效、最可靠的手段，对数据进行加密，并结合有效的密钥保护手段，可在开放环...【详细内容】

2021-11-26　　炼石网络　　　　Tags:数据存储　点击:(17)　　评论:(0)　　加入收藏

Impala在网易大数据的优化和实践

导读：网易大数据平台的底层数据查询引擎，选用了Impala作为OLAP查询引擎，不但支撑了网易大数据的交互式查询与自助分析，还为外部客户提供了商业化的产品与服务。今天将为大家分享...【详细内容】

2021-11-26　　DataFunTalk　　　　Tags:大数据　点击:(15)　　评论:(0)　　加入收藏

终于有人把数据挖掘讲明白了

导读：数据挖掘是一种发现知识的手段。数据挖掘要求数据分析师通过合理的方法，从数据中获取与挖掘项目相关的知识。作者：赵仁乾田建中叶本华常国珍来源：华章科技数据挖掘是一...【详细内容】

2021-11-23　　华章科技　　今日头条　　Tags:数据挖掘　点击:(20)　　评论:(0)　　加入收藏

大屏数据可视化分析平台DashboardClient

今天再给大家分享一个不错的可视化大屏分析平台模板DataColour。 data-colour 可视化分析平台采用前后端分离模式，后端架构设计采用微服务架构模式。前端技术：Angularjs、Jq...【详细内容】

2021-11-04　　web前端进阶　　　　Tags:DashboardClient 　点击:(39)　　评论:(0)　　加入收藏

Prometheus监控业务指标

在Kubernetes已经成了事实上的容器编排标准之下，微服务的部署变得非常容易。但随着微服务规模的扩大，服务治理带来的挑战也会越来越大。在这样的背景下出现了服务可观测性（obs...【详细内容】

2021-11-02　　大数据推荐杂谈　　　　Tags:Prometheus 　点击:(40)　　评论:(0)　　加入收藏

大数据用对了才有大价值

同一产品对老客户的要价竟然比新客户要高？这是当下“大数据杀熟”的直接结果。近年来，随着平台经济的蓬勃发展，大数据在为用户服务之外，也引发了多种不合理现象。为了有效遏制“...【详细内容】

2021-10-29　　　　海外网　　Tags:大数据　点击:(31)　　评论:(0)　　加入收藏

如何使用贸易数据开发客户？

本人03年开始从事贸易行业，多年来一直致力于外贸获客和跨境电商选品等领域，最近有些小伙伴反馈海关数据演示的都挺好为啥用起来不是那么回事？大家看到数据时关注的有产品、采购...【详细内容】

2021-10-28　　QD云龙　　　　Tags:数据　点击:(33)　　评论:(0)　　加入收藏

推荐资讯

远程软件发展迅猛，ToDe	倒计时！企业QQ即将下架
极简Windows11与iPhon	iPhone信号问题，花10元
惊人数据：App Store中4	个人所得税递延纳税报
非常实用的 Python 库	等离子电视技术先进，为