带你去看，携程如何利用大数据实时风控

时间：2020-05-13 16:39:14 来源：作者：

目前携程利用自主研发的风控系统有效识别、防范这些风险。携程风控系统从零起步，经过五年的不断探索与创新，已经可以有效覆盖事前、事中、事后各个环节。也从原来基于“简单规则 +DB”，发展到目前能够支撑 10X 交易增长的智能化风控系统，基于规则引擎、实时模型计算、流式处理、M/R、大数据、数据挖掘、机器学习等的风控系统，拥有实时、准实时的风险决策、数据分析能力。

一、Aegis 系统体系

主要分三大模块：风控引擎、数据服务、数据运算、辅助系统。

风控引擎：主要处理风控请求，有预处理、规则引擎和模型执行服务，风控引擎所需要的数据是由数据服务模块提供的。数据服务：主要有实时流量统计、风险画像、行为设备数据、外部数据访问代理，RiskGraph。数据访问层所提供的数据都是由数据计算层提供数据运算：主要包括风险画像运算、RiskSession、设备指纹、以及实时流量、非实时运算。

数据运算所需的数据来源主要是：风控 Event 数据（订单数据、支付数据），各个系统采集来的 UBT、设备指纹、日志数据等等。

除了这些，风控平台还有非常完善的监控预警系统，人工审核平台以及报表系统。

二、Aegis 系统架构

三、规则引擎

规则引擎包含 3 大功能，首先是适配层。

由于携程的业务种类非常多，而且每种业务都有其特性，在进入风控系统（Aegis）后，为了便于整个风控系统对数据进行处理，风控前端有一个适配器模块，把各个业务的数据都按照风控内部标准化配置进行转换，以适合风控系统使用。

在完成数据适配后。风控系统要进行数据的合并。

举个例子，当有一笔支付风控校验，支付 BU 只抛过来支付信息（支付金额、支付方式、订单号等）。但是不包含订单信息，这个时候就必须根据支付信息快速的查找到订单信息，并把这两个数据进行合并，以便规则、模型使用。大家知道，用户从生成订单到发起支付，其时间间隔从秒到天都有可能，当间隔时间短的时候，就会发生要合并的数据还没有处理完，所以订单数据从处理到落地要非常快。第二部就是要快速查找到订单数据，我们为订单信息根据生成 RiskGraph，可以快速精确定位到所需要的订单明细数据。

预处理在完成数据合并后，就开始准备规则、模型所需要的变量、tag 数据，在准备数据时，预处理模块会依赖后面我们要讲解的数据服务层。当然，为了提高性能，我们为变量、tag 的数据合理安排，优先获取关键规则、模型所需要的变量、tag 的数据。

大家知道，欺诈分子的特点就是一波一波的，风控系统需要能够及时响应，当发现欺诈行为后，能及时上规则防止后续类似的欺诈行为。所以，制定规则需要快速、准确，既然这样，那么就需要我们的规则能够快速上线，而且规则人员自己就可以制定规则并上线。还有就是规则与执行规则的引擎比较做到有效隔离，不能因为规则的不合理，影响到整个引擎。那么规则引擎就必须符合这些条件。

我们最后选择了开源 Drools，第一它是开源，第二它可以使用 JAVA 语言，入门方便，第三功能够用。

这样携程风控引擎，实现了规则上线的高效携程风控实时引擎通过使用规则引擎 Drools，使其具有非常高的灵活性、可配置性，并且由于是 java 语法的，规则人员自己就可以制定规则并迅速上线。

由于每个风控 Event 请求，都需要执行数百个规则，以及模型，这时，风控引擎引入了规则执行路径优化方法。建立起并行 + 串行，依赖关系 + 非依赖关系的规则执行优化方法，然后再引入短路机制，使上千个规则的运行时间控制在 100ms。

规则的灵活性非常强，制定、上线非常快，但是单个规则的覆盖率比较低，如果要增加覆盖率就需要非常多的规则来进行覆盖，这个时候规则的维护成本就会很高，那么这个时候就需要使用模型了，模型的特点就是覆盖率覆盖率可以做到比较高，其模型逻辑可以非常复杂，但是其需要对其进行线下训练，所以携程风控系统利用了规则、模型的各自特点进行互补。

在目前的风控系统中主要使用了：Logistic Regression、Random Forest。两个算法使用下来，目前情况为：LR 训练变量区分度足够好的情况下，加以特征工程效果比较好。RF 当变量线性区分能力较弱的时候，效率比较高。所以使用 RF 的比例比较多。

四、数据服务层

数据服务层，主要功能就是提供数据服务，我们知道在风控引擎预处理需要获取到非常多的变量和 tag，这些变量和 tag 的数据都是由数据访问层来提供的。该服务层的最重要的目的就是响应快。所以在数据服务层主要使用 redis 作为数据缓存区，重要、高频数据直接使用 Redis 作为持久层来使用。

数据服务层的核心思想就是充分利用内存（本地、Redis）1、本地内存（大量固定数据，如 ip 所在地、城市信息等）2、充分利用 Redis 高性能缓存

由于实时数据流量服务、风险画像数据服务的数据是直接存储在 Redis 中，其性能能够满足规则引擎的要求，我们这里重点介绍一下数据访问代理服务。

数据访问代理服务，其最重要的思想就是该数据被规则调用前先调用第三方的服务，把数据保存到 Redis 中，这样当规则请求来请求的时候，就能够直接从 Redis 中读取，既然做到了预加载，那么其数据的新鲜度及命中率就非常重要。我们以用户相关维度的数据为例，风控系统通过对用户日志的分析，可以侦测到哪些用户有登陆、浏览、预定的动作，这样就可以预先把这些用户相关的外部服务数据加载到 Redis 中，当规则、模型读取用户维度的外部数据时，先直接在 redis 中读取，如果不存在然后再访问外部服务。

在某些场景下，我们还结合引入 DB 来做持久化，当用户某些信息发生变化的时候，公共服务会发送一个 Message 到 Hermes，我们就订阅该信息，当知道该用户的某些信息发生修改，我们就主动的去访问外部服务获取数据放入 Redis 中，由于风控系统能够知道这些数据发生变化的 Message，所以这些数据被持久化到 DB 中也是 ok 的，当然，这些数据也有一个 TTL 参数来保证其新鲜度。在这种场景下，系统在 Redis 没有命中的情况下，先到 DB 中查找，两个地方都不存在满足条件的数据时，才会访问外部服务，这个时候，其性能、存储空间就可以得到优化。

五、Chloro 系统

Chloro 系统是数据分析服务也是整个风控系统的核心，数据服务层所使用到的数据，都是由 Chloro 系统计算后提供的。

主要分析维度主要包括：用户风险画像，用户社交关系网络，交易风险行为特性模型，供应商风险模型。

可以看到数据的来源主要有 hermes、hadoop、以及前端抛过来的各种风控 Event 数据。Listener 是用来接收各类数据，然后数据就会进入 CountServer 和 Real-Time Process 系统，其中和 RiskSession 的数据就先进入 Sessionizer ，该模块可以快速进行归约 Session 处理，根据不同的 key 归约成一个 session，然后再提交给实时处理系统进行处理。当 Real Time Process 和 CountServer 对数据处理好后，这个时候分成了两部分数据，一部分是处理的结果，还有一份是原数据，都会提交给 Data Dispatcher，由它进行 Chloro 系统内部的数据路由，结果会直接进入到 RiskProfile 提供给引擎和模型使用。而原始数据会写入到 Hadoop 集群。

Batch Process 就利用 Hadoop 集群的大数据处理能力，对离线数据进行处理，当 Batch Process 处理好后，也会把处理结果发送给 Data Dispatcher，由它进行数据路由。

Batch Process 还可以做跨 Rsession 之间的数据分析。

RiskSession 的定义：量化、刻画用户的行为，任何人通过任何设备访问携程的第一个 event 开始，我们认为 Rsession start 了，到他离开的最后一个 event 后 30 分钟之内没有任何痕迹留下，我们认为 Rsession end。

风控系统通过比较用户信息：Uid, 手机号, 邮箱，设备信息：

Fp（Fingerprint）, clientId, vid, v, deviceId 来判断其是否是同一个用户，通过其行为信息：浏览轨迹, 历史轨迹来判断其行为相似度。

比如：用户在 PC 端下单、然后在手机 App 里完成支付，这个对于 Chloro 是一个会话，这个会话我们称之为风控 Session，通过 Risksession 的定义，风控系统使用户的行为可以量化，也可以刻画。这样 Risksession 实际上可以作为用户行为的一个 Container。使用 RiskSession 就可以做到跨平台，更加有利于分析用户特征。

Risk Graph 是根据携程风控系统的特点开发出来的，Risk Graph 是一个基于 HBase 进行为存储介质的系统，比如，以用户为节点其值就是 HBase 用户表的 key，其每个列就是特性，然后根据用户的某个特性再创建一个 hbase 表，这样就创建了一个基于 HBase 的类 Graph 的架构。

所以该系统的一个核心思想是先创建各个维度的数据索引，然后根据索引值再进行内容的查找。目前风控系统已经创建了十几个维度的快速索引。

六、Aegis 其它子系统

Aegis 还有配置系统，用户可以在上面进行各种配置，如规则、规则运行路径，标准化、tag、变量定义、已经数据清洗业务罗辑等等，当然监控系统也是非常重要的，风控研发秉承着监控无处不在的设计理念，使其能够在第一时间发现系统的任何细小变化。

Tags：大数据点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com)，我们将及时更正、删除，谢谢。

▌相关推荐

最近偷税漏税这么多，都是咋发现的？大数据查税到底咋查的？

为啥这几年偷税漏税的新闻这么多？不是偷的人多了，是因为国家有了查税大杀器： ...【详细内容】

2021-12-24　　Tags: 大数据点击:(10)　　评论:(0)　　加入收藏

浅谈大数据在电力营销系统中的应用及工程实例解析

张欣安科瑞电气股份有限公司上海嘉定 201801 摘要：随着电力行业各系统接入，海量数据涌现，如何利用电网信息化中大量数据，对客户需求进行判断分析，服务于营销链条，提升企业市场竞...【详细内容】

2021-12-14　　Tags: 大数据点击:(10)　　评论:(0)　　加入收藏

大数据时代，我们应该拥有怎样的数据分析思维？

1、什么是数据分析结合分析工具，运用数据分析思维，分析庞杂数据信息，为业务赋能。 2、数据分析师工作的核心流程：（1）界定问题：明确具体问题是什么；●what 发生了什么（是什么）●why 为...【详细内容】

2021-12-01　　Tags: 大数据点击:(26)　　评论:(0)　　加入收藏

一文读懂十大数据存储加密技术

数据作为新的生产要素，其蕴含的价值日益凸显，而安全问题却愈发突出。密码技术，是实现数据安全最经济、最有效、最可靠的手段，对数据进行加密，并结合有效的密钥保护手段，可在开放环...【详细内容】

2021-11-26　　Tags: 大数据点击:(17)　　评论:(0)　　加入收藏

Impala在网易大数据的优化和实践

导读：网易大数据平台的底层数据查询引擎，选用了Impala作为OLAP查询引擎，不但支撑了网易大数据的交互式查询与自助分析，还为外部客户提供了商业化的产品与服务。今天将为大家分享...【详细内容】

2021-11-26　　Tags: 大数据点击:(15)　　评论:(0)　　加入收藏

北京薪酬大数据发布，含30个新职业，排名前五的行业是这些

日前，北京市人力资源和社会保障局发布《2021年北京市人力资源市场薪酬大数据报告》，《报告》基于本市2020年度相关调研数据，按照行业、职位、群体等维度对薪酬数据进行了分析，首...【详细内容】

2021-11-04　　Tags: 大数据点击:(28)　　评论:(0)　　加入收藏

大数据开发之数据仓库架构分析

架构是数据仓库建设的总体规划，从整体视角描述了解决方案的高层模型，描述了各个子系统的功能以及关系，描述了数据从源系统到决策系统的数据流程。业务需求回答了要做什么，架构就...【详细内容】

2021-11-03　　Tags: 大数据点击:(35)　　评论:(0)　　加入收藏

大数据用对了才有大价值

同一产品对老客户的要价竟然比新客户要高？这是当下“大数据杀熟”的直接结果。近年来，随着平台经济的蓬勃发展，大数据在为用户服务之外，也引发了多种不合理现象。为了有效遏制“...【详细内容】

2021-10-29　　Tags: 大数据点击:(31)　　评论:(0)　　加入收藏

电话销售中，精准大数据获客的重要性。

如今社会，手机电话在中国的使用率已达到99%以上，大大的地增强了我们的生活水平。而电话不但用以日常生活，还可以用以工作中，例如电话营销，电话便是他们的武器装备，他们根据手机的...【详细内容】

2021-10-26　　Tags: 大数据点击:(45)　　评论:(0)　　加入收藏

个保法生效在即，大数据营销需制定怎样的标准？

《个人信息保护法》11月1日即将生效，在大数据营销充斥在网络上的现在，如何引导大数据为善，如何更好的使用开发大数据，变得既重要也有现实意义。...【详细内容】

2021-10-26　　Tags: 大数据点击:(35)　　评论:(0)　　加入收藏

▌简易百科推荐

聊聊如何自定义数据脱敏

前言什么是数据脱敏数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形，实现敏感隐私数据的可靠保护常用脱敏规则替换、重排、加密、截断、掩码良好的数据脱敏实施1、尽...【详细内容】

2021-12-28　　linyb极客之路　　　　Tags:数据脱敏　点击:(2)　　评论:(0)　　加入收藏

浅谈大数据在电力营销系统中的应用及工程实例解析

2021-12-14　　安科瑞张欣　　　　Tags:大数据　点击:(10)　　评论:(0)　　加入收藏

大数据时代，我们应该拥有怎样的数据分析思维？

2021-12-01　　逆风北极光　　　　Tags:大数据　点击:(26)　　评论:(0)　　加入收藏

快速汇总分析大批量数据

在实际工作中，我们经常需要整理各个业务部门发来的数据。不仅分散，而且数据量大、格式多。单是从不同地方汇总整理这些原始数据就花了大量的时间，更不用说还要把有效的数据收集...【详细内容】

2021-11-30　　百数　　　　Tags:数据　点击:(21)　　评论:(0)　　加入收藏

一文读懂十大数据存储加密技术

2021-11-26　　炼石网络　　　　Tags:数据存储　点击:(17)　　评论:(0)　　加入收藏

Impala在网易大数据的优化和实践

2021-11-26　　DataFunTalk　　　　Tags:大数据　点击:(15)　　评论:(0)　　加入收藏

终于有人把数据挖掘讲明白了

导读：数据挖掘是一种发现知识的手段。数据挖掘要求数据分析师通过合理的方法，从数据中获取与挖掘项目相关的知识。作者：赵仁乾田建中叶本华常国珍来源：华章科技数据挖掘是一...【详细内容】

2021-11-23　　华章科技　　今日头条　　Tags:数据挖掘　点击:(20)　　评论:(0)　　加入收藏

大屏数据可视化分析平台DashboardClient

今天再给大家分享一个不错的可视化大屏分析平台模板DataColour。 data-colour 可视化分析平台采用前后端分离模式，后端架构设计采用微服务架构模式。前端技术：Angularjs、Jq...【详细内容】

2021-11-04　　web前端进阶　　　　Tags:DashboardClient 　点击:(40)　　评论:(0)　　加入收藏

Prometheus监控业务指标

在Kubernetes已经成了事实上的容器编排标准之下，微服务的部署变得非常容易。但随着微服务规模的扩大，服务治理带来的挑战也会越来越大。在这样的背景下出现了服务可观测性（obs...【详细内容】

2021-11-02　　大数据推荐杂谈　　　　Tags:Prometheus 　点击:(40)　　评论:(0)　　加入收藏

大数据用对了才有大价值

2021-10-29　　　　海外网　　Tags:大数据　点击:(31)　　评论:(0)　　加入收藏

推荐资讯

聊聊如何自定义数据脱	河南人到底有多爱吃面
人称“犬中四煞”的4	离婚后，约定每月给孩子
“三皇五帝”分别是哪	印度低种姓群体如何翻
日本研发“飞行摩托”	2021年Steam最畅销游