您当前的位置:首页 > 互联网百科 > 大数据

流式图计算在蚂蚁大数据场景的应用

时间:2023-11-14 13:44:44  来源:微信公众号  作者:DataFunTalk

在大数据领域中,流式图计算(Streaming Graph Processing)作为一种用于处理实时数据流的计算模型和技术,结合了图计算和流式数据处理的概念,旨在处理数据流中的节点(vertices)和边(edges)之间的关系,以实时分析、处理和理解不断涌现的数据。蚂蚁集团对于流式图计算在实时数据处理与分析领域有较成熟的体系。今天主要介绍蚂蚁集团实时数据体系和关键技术、基于流式图计算的实时流量归因场景应用,以及基于流式图计算在支付宝营销场景实时 OLAP 和数金场景实时用户行为意图分析的探索。

一、蚂蚁实时数据整体介绍

首先介绍的是蚂蚁集团实时大数据能力框架图。

1、蚂蚁实时能力大图

流式图计算在蚂蚁大数据场景的应用

总体分基础技术、实时核心能力、业务三个层次。基础技术包含计算、存储、消息队列等,今天重点分享的流式图计算引擎就在这里。实时核心能力自下向上依次是技术架构&研发范式、数据资产、数据解决方案。技术架构&研发范式包括“流批一体”、“湖仓一体”等架构,也包括针对不同业务情景的研发范式和架构约束。技术架构之上是资产层,类似离线数仓我们为实时也构建了一套资产管理和治理体系。最上面是领域解决方案,面向类似业务场景提供一套通用的实时领域解决方案,比如营销活动、实时风控等场景。基于这个能力大图,逐渐实现以需求驱动为主向数据驱动业务发展的整体战略目标转化。

2、蚂蚁流批一体架构:从“物理”到“逻辑”代码的数据研发

流式图计算在蚂蚁大数据场景的应用

这里简要介绍实时能力大图中的“流批一体”。流批一体能力的应用指的是一种应用程序能够同时处理实时数据流和批量数据的能力。换句话说,该应用能够灵活地在实时情境下处理连续的数据流,也可以在一段时间内处理累积的数据批次。Apache Flink 和 Apache Spark 是两个流行的分布式计算框架。这两个框架都具有处理实时数据流和批处理数据的能力。

对于流批一体可以有两个层面的理解:

  • 从引擎角度:unified 引擎,它指的是一种引擎,在底层能够统一处理流式数据和批处理数据。这意味着开发人员可以使用同一套引擎来处理不同类型的数据处理需求,而不需要切换或使用不同的引擎。
  • 从业务研发角度:开发人员只需要编写一套代码,就能够处理实时数据流和批处理数据,这样可以减少开发工作量,提高开发效率,并且更容易维护代码。

蚂蚁的解决方案是在数据研发平台层实现开发一套逻辑代码实现流批一体,并在此基础上做了大量优化。比如代码里可以根据“__source_type__“这些系统级别的关键词(值为“bounded”和“unbounded”)进行不同位点和分区的流式和批式处理。

3、蚂蚁流式图计算(TuGraph-Analytics)系统架构

流式图计算在蚂蚁大数据场景的应用

蚂蚁流式图计算系统的整体框架包含了容器资源、流图引擎与 API、数据应用,及计算控制后台几个层面,为实现高效的数据处理和分析提供了完整的架构。在该框架中,底层为强大的容器基础设施,涵盖了 Kube.NETes(k8s)和Ray,为上层提供了可扩展性和资源管理。在此基础上构建了流图引擎,为数据流处理和分析提供核心支持,其中包括 GraphView API、Unified Graph Engine 和 Graph State。最上层则是流图数据应用,涵盖了转化归因、实时 OLAP、行为意图等多个领域,同时展望未来的发展,计划在广告场景中引入链路诊断,以进一步提升系统的功能和价值。整个框架在数据处理的各个层面提供了一体化的解决方案,为实时数据处理和分析应用提供了强有力的支持。

二、流式图计算在实时流量归因场景的应用

1、流量转化

流式图计算在蚂蚁大数据场景的应用

左边是一个流量转化漏斗,指在数字营销和业务运营中,通过不同阶段的处理和转化,将大量的潜在用户或访问者逐步引导、筛选,最终实现特定目标的过程。包括了公域到商家私域/行业阵地的流量分发、私域交易转化、流量商业化变现几个环节。从平台视角,通过为商家进行流量引导、提升交易转化,最终实现流量的商业化价值。

以用户在支付宝的访问为例,可以详细介绍如何通过流量漏斗实现从公域流量到商家私域,再到交易转化,最终实现商业化:

  • 商家私域/行业阵地的流量分发: 典型的公域流量如在支付宝首页空格、腰封的曝光。如何在公域流量场将合适的私域或行业内容分发推荐给用户是个非常重要的课题。用户可以通过点击入支付宝首页的曝光内容跳转到相应的小程序或承接页面。在这个阶段,可以通过精准的内容定位、个性化推送等方式,将用户进一步引导到感兴趣的领域,从而提高用户的黏性和互动性。
  • 私域交易转化: 在商家的私域内,可以采取多种策略促使用户进行转化,例如订阅、入会等。这些操作可以进一步深化用户与商家之间的互动,建立用户画像,私域中的用户已经显示出一定的兴趣和亲近度,因此更容易进行交易转化。
  • 流量商业化变现: 一旦用户完成交易转化,平台就达到了流量变现的目标,即通过用户的付费行为实现商业化价值。

右边是一个对应的广告商业化的漏斗。从曝光到点击再到转化,可以通过广告中不同的 CPM(千次曝光)、CPC(点击)、CPA(动作)计费模式来实现流量的实时跟踪与变现。

2、流量转化归因模型

流式图计算在蚂蚁大数据场景的应用

流量转化归因模型在数字营销等场景中具有关键作用,它可以帮助分析和理解用户在不同阶段的行为对最终转化(例如购买、注册等)的贡献,从而优化营销策略和资源分配。这有助于了解用户决策路径、优化转化率,以及对不同营销渠道和策略进行评估和优化。

用户路径建模:客户端上报的埋点数据将被用于构建用户路径模型,即用户在整个流程中的行为路径。这可以通过分析用户在页面之间的转换关系来实现,整个过程会形成一个动态的路径图。

该模型包含以下节点:

  • 路径起点:转化事件发生前最后一次进入支付宝首页
  • 裁剪点:从相同的页面跳出又跳入,两次跳入之间没有发现转化事件,中间日志对转化达成无效,可以剪裁
  • 有效转化节点:转化主链路上的有效转化日志
  • 无效转化节点:转化链路上的无效转化日志
  • 路径终点:转化事件前的最后一条日志

经过裁剪的最终转化链路:A(1)->B(6)->F(7)->G(8)->H(9)

3、实时流量转化归因整体技术架构

流式图计算在蚂蚁大数据场景的应用

这是实时流量转化归因的整体技术架构,其中数据部分比较核心的是基于业务中间层的转化事件定义(如交易支付、权益核销等)和转化数据模型的 Schema 归一化。通过对不同转化事件类型的 Schema 归一化可以屏蔽不同业务的差异,便于下游消费使用。在此基础上,通过逻辑视图可以实现对不同业务场景分类消费的支持,大大提升了数据消费的效率。最后是基于流图的转化归因计算,输入是流量和转化事件,输出是转化的归因结果。

4、基于流式图计算的的实时流量转化归因

流式图计算在蚂蚁大数据场景的应用

目前,用户行为日志主要以“访问”和“点击”为主,“曝光”由于数据量大、上传延迟高暂没有使用。根据实时的用户访问行为日志和用户点击行为日志通过流式图计算引擎进行实时构图,当转化事件到达时进行归因路径计算,即根据流量转化归因模型从橙色节点(路径起点)到绿色节点(路径终点)的链路计算,最后将其结果输出到下游的 MQ 和 OLAP。

该系统从用户端到后端的数据采集时效已经达到五分钟90%以上,十分钟接近100%,已可以满足绝大多数业务需求。

5、实时流量转化归因数据链路

流式图计算在蚂蚁大数据场景的应用

以上是实时生产过程中的实时转化链路,上游主要有两种数据源,一种是客户端埋点采集,一种是服务端数据采集(如服务端日志、数据库 binlog)。一般而言服务端数据采集实效性比较快,除了中间件的抖动,其上报速度在秒级。整个链路的主要延迟集中在流量上报环节和流图计算环节,其中流量上报环节由于客户端、网络等多种因素变量较大,而流图计算环节则是可控的人为设定的等待时间窗口,因为实际的流量、转化事件上传不是严格有序及时上传的,这个等待窗口大小的设定也要结合归因的时效性和准确性综合考虑权衡。最终这些数据会加工处理成 DWD 中间层供下游营销等应用场景使用。

三、流式图计算在实时 OLAP 场景的探索

1、后置计算

流式图计算在蚂蚁大数据场景的应用

后置计算是流计算的一种研发模式。当前蚂蚁实时计算以“前置计算”为主,正逐步发展成为包括“后置计算”在内的支持不同业务场景的“多模式计算”研发模式。

  • 前置预计算模式:在数据进入 OLAP 系统之前,提前对部分计算进行处理,从而减轻后续计算的负担,加速数据处理和分析过程。广泛应用于大数据量,数据时效和查询性能要求高的场景,如实时大屏。其优点为数据时效快,查询性能高。其缺点为数据容错性差,灵活性低。
  • 前置打宽后置聚合:从 TP 到 AP 阶段进行数据打宽,在 AP 阶段进行聚合。其优点为灵活性适中,数据容错高。缺点为查询性能一般。因而适用于业务确定性比较高的场景,例如直播分析看板。
  • 后置聚合:从 TP 到 AP 阶段进行实时同步,保存原始数据,其优点为灵活性较高,且数据容错率高,但是查询性能低。适用于业务不确定性比较高的场景,例如自助分析。

以实时特征研发为例,基于后置计算模式后,新增特征只需要在特征平台进行特征视图配置,无需为不同特征加工建设不同的 Flink 实时任务,实时特征研发效率得到极大提升。

2、后置计算:基于流式图计算在营销实时 OLAP 场景的探索

流式图计算在蚂蚁大数据场景的应用

接下来介绍支付宝营销场景后置计算的一个案例,即流式图计算在实时 OLAP 场景的探索。采用流图进行后置计算后,在数据模型和研发模式上都发生了比较大的变化。

数据模型方面,过去在我们完成基础的 ODS、DWD 建设后,随着时间和复杂度的增加,ADM 应用层的数量会急剧上升(各种维度的指标报表),这给开发和运维工作都带来了极大压力。采用流图后,基于用户去做图建模,将权益和玩法等业务层面与用户本身建立关系,形成一个图关系网,再进行后置分析。

研发模式方面,经典的研发模式是指标需求驱动研发,先采集上游数据,形成维度等中间表,再根据不同的场景去计算对应需求的指标。这个模型的缺点是对于内部运营非常态化需求的指标数据而言,浪费了前置计算量。基于流图的后置计算可以有效的避免这个浪费,只有业务有需求需要查看数据时,才进行计算,即保证了数据时效性也避免了计算浪费。除此之外,模型的灵活性比较高,对于临时增加计算节点和指标等行为的代价比较小。总而言之,后置流图计算更符合如今高复杂度,高灵活性需求的应用场景。

流式计算引擎与传统基于 OLAP 的引擎内测对比发现,对于单表场景,流式计算引擎性能稍显逊色,但是多表关联场景,其性能明显优于基于 OLAP 的引擎。

四、流式图计算在实时用户行为意图分析场景的探索

流式图计算在蚂蚁大数据场景的应用

另一个我们基于流式图计算的探索是在数字金融领域,在财富场景进行的用户行为意图分析。以前,我们对用户行为意图的分析主要是使用一维的用户行为特征或者二维的用户行为序列。类似上面提到的流量转化归因的例子,用户实际的行为是复杂多变的、噪音较多,传统的数据模型在意图识别准确度,尤其是大规模数据的精准意图识别上还存在比较大的挑战。

上图通过对用户行为意图的实时构图及对不同节点意图分的计算,得到用户最有可能感兴趣的产品。比如用户在进入支付宝理财 tab 页,可能在不同的页面(如引导、承接、交易)访问了不同的基金产品,这其中结合基金产品的 spm 和访问次数会计算一个意图分,并综合整个路径中不同意图分的情况得到一个用户最可能交易的意图节点。另一方面,基于这些用户偏好的产品节点,可以进一步推演出用户感兴趣的产品类目,基于这些数据可以实现更丰富的推广营销。

基于流图可以实现更加快速精准识别用户行为意图,与传统的推荐算法不同,作为一个实时数据方案,它具备高时效性、过程白盒化、可人工干预扩展节点、消除噪音意图识别更精准、后置计算效率更高等特点。

五、未来展望

展望未来主要包括以下这些:

  • 基于流图的实时 OLAP 在营销场景的推广应用
  • 基于流图的实时用户行为意图分析在数金、内容等场景的推广应用
  • 基于流图的实时归因能力在广告链路诊断场景的应用探索
  • 流图开源项目的贡献参与


Tags:大数据   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
大数据杀熟何时告别“人人喊打却无可奈何”?
2月7日郑州飞往珠海的航班,不同手机、不同账号搜索该航班显示出不同价格。图源网络有网友近日分享在某平台的购票经历,引发社会广泛关注——用3个账号买同一航班同...【详细内容】
2024-01-30  Search: 大数据  点击:(32)  评论:(0)  加入收藏
简易百科:到底什么是大数据?
随着互联网的快速发展,大数据已经成为了当今社会最热门的话题之一。那么,到底什么是大数据呢?首先,我们需要明确大数据的定义。大数据是指数据量极大、类型繁多、处理难度高的数...【详细内容】
2024-01-30  Search: 大数据  点击:(40)  评论:(0)  加入收藏
挑战 Spark 和 Flink?大数据技术栈的突围和战争
十年的轮回,正如大数据的发展一般,它既是一个轮回的结束,也是崭新的起点。大数据在过去的二十年中蓬勃发展,从无到有,崛起为最具爆炸性的技术领域之一,逐渐演变成为每个企业不可或...【详细内容】
2024-01-17  Search: 大数据  点击:(40)  评论:(0)  加入收藏
Java后端+Java大数据+前端
web前端开发主要涉及创建网页或网站的用户界面,包括布局、样式、动画、交互等。web前端开发需要掌握HTML、CSS、JavaScript等基础语言,以及各种框架和库,如React、Vue、Bootstr...【详细内容】
2023-12-28  Search: 大数据  点击:(93)  评论:(0)  加入收藏
分布式存储系统在大数据处理中扮演着怎样的角色?
如果存储节点本身可以定制,则通常会让其支持部分计算能力,以利用数据的亲和性,将部分计算下推到相关的存储节点上。如果存储是云上的 S3 等对象存储,无法定制,则通常会将数据在计...【详细内容】
2023-12-19  Search: 大数据  点击:(48)  评论:(0)  加入收藏
大数据如何实时拯救生命:车联网的数据分析有助预防交通事故
译者 | 李睿审校 | 重楼车联网(IoV)是汽车行业与物联网相结合的产物。预计车联网数据规模将越来越大,尤其是当电动汽车成为汽车市场新的增长引擎。问题是:用户的数据平台准备...【详细内容】
2023-12-19  Search: 大数据  点击:(41)  评论:(0)  加入收藏
MongoDB与大数据处理:构建高性能分布式数据库
MongoDB是一种非关系型数据库,具有高度灵活性和可扩展性。在处理大量数据时,索引的优化是提升查询性能的关键。下面将介绍一些MongoDB索引优化的指南,帮助用户更好地利用索引来...【详细内容】
2023-12-18  Search: 大数据  点击:(71)  评论:(0)  加入收藏
Java与MySQL大数据处理的技巧
处理海量数据是现代应用程序中常见的挑战之一,尤其是在Java与MySQL这样的技术栈中。下面将介绍一些处理海量数据的技巧和策略,并讨论如何通过Java与MySQL实现高效的大数据处理...【详细内容】
2023-11-29  Search: 大数据  点击:(212)  评论:(0)  加入收藏
中国数据交易大数据:哪些省市交易多,哪些行业需求高
金融、互联网、通信、制造工业、政务、医疗健康、交通运输和教育等细分行业,对于数据产品的应用需求均呈现出上升趋势。数据要素作为新的生产要素在赋能其他传统生产要素发展...【详细内容】
2023-11-27  Search: 大数据  点击:(64)  评论:(0)  加入收藏
大数据专业四大考研方向推荐,4个原因告诉你为什么推荐!
随着信息技术的快速发展,大数据已经成为各行各业的重要资源。在这个时代背景下,大数据专业的毕业生不仅需要具备扎实的技术基础,还需要掌握全面的知识结构和实际应用能力。而通...【详细内容】
2023-11-26  Search: 大数据  点击:(97)  评论:(0)  加入收藏
▌简易百科推荐
大数据杀熟何时告别“人人喊打却无可奈何”?
2月7日郑州飞往珠海的航班,不同手机、不同账号搜索该航班显示出不同价格。图源网络有网友近日分享在某平台的购票经历,引发社会广泛关注——用3个账号买同一航班同...【详细内容】
2024-01-30    中国青年网  Tags:大数据杀熟   点击:(32)  评论:(0)  加入收藏
简易百科:到底什么是大数据?
随着互联网的快速发展,大数据已经成为了当今社会最热门的话题之一。那么,到底什么是大数据呢?首先,我们需要明确大数据的定义。大数据是指数据量极大、类型繁多、处理难度高的数...【详细内容】
2024-01-30    简易百科  Tags:大数据   点击:(40)  评论:(0)  加入收藏
数据采集新篇章:AI与大模型的融合应用
开篇在AIGC(人工智能与通用计算)应用中,大型语言模型(LLM)占据着举足轻重的地位。这些模型,如GPT和BERT系列,通过处理和分析庞大的数据集,已经极大地推动了自然语言理解和生成的边界...【详细内容】
2024-01-17  崔皓  51CTO  Tags:数据采集   点击:(50)  评论:(0)  加入收藏
挑战 Spark 和 Flink?大数据技术栈的突围和战争
十年的轮回,正如大数据的发展一般,它既是一个轮回的结束,也是崭新的起点。大数据在过去的二十年中蓬勃发展,从无到有,崛起为最具爆炸性的技术领域之一,逐渐演变成为每个企业不可或...【详细内容】
2024-01-17  InfoQ    Tags:大数据   点击:(40)  评论:(0)  加入收藏
分布式存储系统在大数据处理中扮演着怎样的角色?
如果存储节点本身可以定制,则通常会让其支持部分计算能力,以利用数据的亲和性,将部分计算下推到相关的存储节点上。如果存储是云上的 S3 等对象存储,无法定制,则通常会将数据在计...【详细内容】
2023-12-19  木鸟杂记  微信公众号  Tags:大数据   点击:(48)  评论:(0)  加入收藏
大数据如何实时拯救生命:车联网的数据分析有助预防交通事故
译者 | 李睿审校 | 重楼车联网(IoV)是汽车行业与物联网相结合的产物。预计车联网数据规模将越来越大,尤其是当电动汽车成为汽车市场新的增长引擎。问题是:用户的数据平台准备...【详细内容】
2023-12-19    51CTO  Tags:大数据   点击:(41)  评论:(0)  加入收藏
利用生成对抗网络进行匿名化数据处理
在互联网时代,数据日益成为人们的生产资料。然而,在某些情况下,我们需要分享数据,但又需要保护个人隐私。这时,匿名化技术就显得尤为重要。本文将介绍利用生成对抗网络进行匿名化...【详细内容】
2023-12-18  技巧达人小影    Tags:数据处理   点击:(56)  评论:(0)  加入收藏
盘点那些常见的数据中心类型,你知道几个?
在数字化潮流的浪潮下,数据中心如同企业的神经系统,关系到业务的稳健运转。而在这个巨大的网络中,各种数据中心类型如雨后春笋般崭露头角。从企业级的个性至云数据中心的虚拟化...【详细内容】
2023-12-07  数据中心之家  微信公众号  Tags:数据中心   点击:(65)  评论:(0)  加入收藏
数据中心的七个关键特征
随着信息技术的不断演进,数据中心的可靠性、可扩展性、高效性、安全性、灵活性、管理性和可持续性成为业界探讨的焦点。下面让我们一同深入剖析这些关键特征,了解它们是如何影...【详细内容】
2023-12-06  数据中心之家  微信公众号  Tags:数据   点击:(63)  评论:(0)  加入收藏
什么是数据解析?将数据转化为更好的决策
什么是数据解析?数据解析是一门专注于从数据中获取洞察力的学科。它包含数据分析(data analysis)和管理的流程、工具和技术,包括数据的收集、组织和存储。数据解析的主要目的是...【详细内容】
2023-12-06  计算机世界    Tags:数据解析   点击:(62)  评论:(0)  加入收藏
站内最新
站内热门
站内头条