您当前的位置：首页 > 新闻 > 科技

腾讯防刷负责人：基于用户画像大数据的电商防刷架构

时间：2020-04-17 14:17:08 来源：作者：

颜国平，腾讯云－天御系统研发负责人。

一直负责腾讯自有验证码、业务安全、防刷、账号安全等研发工作。

内部支持的产品（游戏、电商、腾讯投资的O2O企业）非常广泛。

在业务安全领域项目经验丰富，并且具备深度学习、大数据架构搭建等实战经验。

一、背景介绍

最近1~2年电商行业飞速发展，各种创业公司犹如雨后春笋大量涌现，商家通过各种活动形式的补贴来获取用户、培养用户的消费习惯。

但任何一件事情都具有两面性，高额的补贴、优惠同时了也催生了“羊毛党”。

“羊毛党”的行为距离欺诈只有一步之遥，他们的存在严重破坏了活动的目的，侵占了活动的资源，使得正常的用户享受不到活动的直接好处。

今天主要分享下腾讯自己是如何通过大数据、用户画像、建模来防止被刷、恶意撞库的。

二、黑产现状介绍

“羊毛党”一般先利用自动机注册大量的目标网站的账号，当目标网站搞促销、优惠等活动的时候，利用这些账号参与活动刷取较多的优惠，最后通过淘宝等电商平台转卖获益。

一、羊毛党分工

他们内部有着明确的分工，形成了几大团伙，全国在20万人左右：

软件制作团伙：专门制作各种自动、半自动的黑产工具，比如注册自动机、刷单自动机等；他们主要靠出售各种黑产工具、提供升级服务等形式来获利。
短信代接平台：实现手机短信的自动收发，其实一些平台亦正亦邪，不但提供给正常的商家使用，一些黑产也会购买相关的服务。
账号出售团伙：他们主要是大量注册各种账号，通过转卖账号来获利；该团伙与刷单团伙往往属于同一团伙。
刷单团伙：到各种电商平台刷单，获取优惠，并且通过第三方的电商平台出售优惠，实现套现。

二、“羊毛党”从业特点

这些黑产团队，有三个特点：

专业化：专业团队、人员、机器来做。
团伙化：黑产已经形成一定规模的团伙，而且分工明确；从刷单软件制作、短信代收发平台、电商刷单到变卖套现等环节，已经形成完整的刷单团伙。
地域化：黑产刷单团伙基本分布在沿海的一些经济发达城市，比如，北京、上海、广东等城市，这或许跟发达城市更加容易接触到新事物、新观念有关。

三、对抗刷单的思路

对抗刷单，一般来讲主要从三个环节入手：

注册环节：识别虚假注册、减少“羊毛党”能够使用的账号量。在注册环节识别虚假注册的账号，并进行拦截和打击。
登录场景：提高虚假账号登录门槛，从而减少能够到达活动环节的虚假账号量。比如，登录环节通过验证码、短信验证码等手段来降低自动机的登录效率，从而达到减少虚假账号登录量、减轻活动现场安全压力的目的。
活动环节：这个是防刷单对抗的主战场，也是减少“羊毛党”获利的直接战场；这里的对抗措施，一般有两个方面：1）通过验证码（短信、语音）降低黑产刷单的效率。2）大幅度降低异常账号的优惠力度。

三、腾讯内部防刷架构

一、腾讯内部防刷的架构图

二、模块详细介绍

1、风险学习引擎

风险学习引擎：效率问题。由于主要的工作都是线下进行，所以线上系统不存在学习的效率问题。线上采用的都是C++实现的DBScan等针对大数据的快速聚类算法，基本不用考虑性能问题。

风险学习引擎：采用了黑/白双分类器风险判定机制。之所以采用黑/白双分类器的原因就在于减少对正常用户的误伤。

例如，某个IP是恶意的IP，那么该IP上可能会有一些正常的用户，比如大网关IP。

再比如，黑产通过ADSL拨号上网，那么就会造成恶意与正常用户共用一个IP的情况。

黑分类器：根据特征、机器学习算法、规则/经验模型，来判断本次请求异常的概率。

白分类器：判断属于正常请求的概率。

2、矩阵式逻辑框架

我们以黑分类器为例来剖析下分类器的整个逻辑框架。

总的来讲我们采用了矩阵式的逻辑框架，最开始的黑分类器我们也是一把抓，随意的建立一个个针对黑产的检测规则、模型。

结果发现不是这个逻辑漏过了，而是那个逻辑误伤量大，要对那一类的账号加强安全打击力度，改动起来也非常麻烦。

因此我们就设计了这个一个矩阵式的框架来解决上述问题。

矩阵的横向采用了Adaboost方法，该方法是一种迭代算法，其核心思想是针对同一个训练集训练不同的弱分类器，然后把这些分类器集合起来，构成一个最终的分类器。

而我们这里每一个弱分类器都只能解决一种帐号类型的安全风险判断，集中起来才能解决所有账户的风险检测。

那么在工程实践上带来三个好处：

便于实现轻重分离，比如某平台虚假账号集中在邮箱账号，策略就可以加大对邮箱账号的打击力度，影响范围也局限在邮箱帐号，而不是该平台所有的账号。
减少模型训练的难度，模型训练最大的难度在于样本的均衡性问题，拆分成子问题，就不需要考虑不同账号类型之间的数据配比、均衡性问题，大大降低了模型训练时正负样本比率的问题。
逻辑的健壮性，某一个分类器的训练出现了问题，受影响的范围不至于扩展到全局。

矩阵纵向采用了Bagging方法，该方法是一种用来提高学习算法准确度的方法，该方法在同一个训练集合上构造预测函数系列，然后以一定的方法将他们组合成一个预测函数，从而来提高预测结果的准确性。

上面讲的部分东西，理解起来会比较艰涩，这里大家先理解框架，后续再理解实现细节。

四、腾讯大数据收集纬度

大数据一直在安全对抗领域发挥着重要的作用，从我们的对抗经验来看，大数据不仅仅是数据规模很大，而且还包括两个方面：

数据广度：要有丰富的数据类型。比如，不仅仅要有社交领域的数据、还要有游戏、支付、自媒体等领域的数据，这样就提供了一个广阔的视野让我们来看待黑产的行为特点。
数据深度：黑产的对抗。我们一直强调纵深防御，我们不仅仅要有注册数据，还要有登录，以及账号的使用的数据，这样我们才能更好的识别恶意。

所以想要做风控和大数据的团队，一定要注意在自己的产品上多埋点，拿到足够多的数据，先沉淀下来。

五、腾讯大数据处理平台－魔方

我们的团队研发了一个叫魔方的大数据处理和分析的平台，底层我们集成了MySQL、MongoDB，Spark、Hadoop等技术，在用户层面我们只需要写一些简单的SQL语句、完成一些配置就可以实现例行分析。

这里我们收集了社交、电商、支付、游戏等场景的数据，针对这些数据我们建立一些模型，发现哪些是恶意的数据，并且将数据沉淀下来。

沉淀下来的对安全有意义的数据，一方面就存储在魔方平台上，供线下审计做模型使用；另一方面会做成实时的服务，提供给线上的系统查询使用。

一、腾讯用户画像沉淀方法

画像，本质上就是给账号、设备等打标签。

用户画像＝打标签

我们这里主要从安全的角度出发来打标签，比如IP画像，我们会标注IP是不是代理IP，这些对我们做策略是有帮助的。

以QQ的画像为例，比如，一个QQ只登录IM、不登录其他腾讯的业务、不聊天、频繁的加好友、被好友删除、QQ空间要么没开通、要么开通了QQ空间但是评论多但回复少，这种号码我们一般会标注QQ养号（色情、营销），类似的我们也会给QQ打上其他标签。

标签的类别和明细，需要做风控的人自己去设定，比如：地理位置，按省份标记。性别，按男女标记。其他细致规则以此规律自己去设定。

一般的业务都有针对IP的频率、次数限制的策略，那么黑产为了对抗，必然会大量采用代理IP来绕过限制。

既然代理IP的识别如此重要，那我们就以代理IP为例来谈下腾讯识别代理IP的过程。

识别一个IP是不是代理IP，技术不外乎就是如下四种：

反向探测技术：扫描IP是不是开通了80,8080等代理服务器经常开通的端口，显然一个普通的用户IP不太可能开通如上的端口。
HTTP头部的X_Forwarded_For：开通了HTTP代理的IP可以通过此法来识别是不是代理IP；如果带有XFF信息，该IP是代理IP无疑。
Keep-alive报文：如果带有Proxy-Connection的Keep-alive报文，该IP毫无疑问是代理IP。
查看IP上端口：如果一个IP有的端口大于10000，那么该IP大多也存在问题，普通的家庭IP开这么大的端口几乎是不可能的。

以上代理IP检测的方法几乎都是公开的，但是盲目去扫描全网的IP，被拦截不说，效率也是一个很大的问题。

因此，我们的除了利用网络爬虫爬取代理IP外，还利用如下办法来加快代理IP的收集：通过业务建模，收集恶意IP（黑产使用代理IP的可能性比较大）然后再通过协议扫描的方式来判断这些IP是不是代理IP。每天腾讯都能发现千万级别的恶意IP，其中大部分还是代理IP。

二、腾讯用户画像类别概览

三、接入系统

适应的场景包括：

电商o2o刷单、刷券、刷红包
防止虚假账号注册
防止用户名、密码被撞库
防止恶意登录

Q&A

Q：风险学习引擎是自研的，还是使用的开源库？

风险学习引擎包括两个部分，线上和线下两部分：

线上：自己利用c/c++来实现。
线下：涉及利用Python开源库来做的，主要是一些通用算法的训练和调优。

Q：请问魔方平台中用到的MongDB是不是经过改造？因为MongDB一直不被看好，出现问题也比较多。

我们做了部分改造，主要是DB的引擎方面。

Q：请问黑分类器和白分类器有什么区别？

白分类器主要用来识别正常用户，黑分类器识别虚假用户。

Q：风险概率的权重指标是如何考虑的？

先通过正负样本进行训练，并且做参数显著性检查；然后，人工会抽查一些参数的权重，看看跟经验是否相符。

Q：安全跟风控职责如何区分呢？

相比安全，风控的外延更丰富，更注重宏观全局；针对一个公司来讲，风控是包括安全、法务、公关、媒体、客服等在内一整套应急处理预案。

Q：如果识别错了，误伤了正常用户会造成什么后果么？比如影响单次操作还是会一直失败。

如果识别错了正常用户不会被误伤，但是会导致体验多加了一个环节，如弹出验证码、或者人工客服核对等。

Tags：腾讯点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com)，我们将及时更正、删除，谢谢。

▌相关推荐

买服务器买阿里云还是腾讯云？我更推荐阿里云

阿里云和腾讯云都是非常好的云服务器平台，大多数用户完全不用纠结腾讯云还是阿里云，特别是微信开发用户，自然是首选腾讯云，其次是学生或个人以及财政紧张的小公司微型业务，腾讯云...【详细内容】

2021-12-14　　Tags: 腾讯点击:(14)　　评论:(0)　　加入收藏

腾讯解除独家版权后，“网易云们”能听“周杰伦”了吗？

中国音乐市场近年来的历史，是一部版权争夺史。随着版权价值显现，“独家授权”成了音乐平台开疆拓土的关键。仅仅数年，水涨船高的版权费令市场格局重组，玩家越来越少，资源向少数头...【详细内容】

2021-10-18　　Tags: 腾讯点击:(36)　　评论:(0)　　加入收藏

元宇宙，腾讯们的解药

很长时间没有过对一个概念如此追捧的景象了。现在，这样的景象正在元宇宙的身上发生。除了资本市场对元宇宙推崇备至之外，我们看到的更多的是头部巨头们对元宇宙的深度布局。国...【详细内容】

2021-10-07　　Tags: 腾讯点击:(31)　　评论:(0)　　加入收藏

腾讯云轻量云服务器配置VPN教程(PPTP)

VPN英文全称是“Virtual Private Network”，也就是“虚拟专用网络”。虚拟专用网络就是一种虚拟出来的企业内部专用线路、这条隧道可以对数据进行几倍加密达到安全使用互联网...【详细内容】

2021-09-14　　Tags: 腾讯点击:(45)　　评论:(0)　　加入收藏

Facebook VS 腾讯，谁才是“不可替代”的社交巨头？

最近，美国联邦贸易委员会（FTC）重新发起对Facebook的反垄断起诉。FTC称，Facebook的用户数量和用户贡献内容的累积构成了垄断要件。Facebook的用户大，内容积累长，已经具有不可替代...【详细内容】

2021-08-24　　Tags: 腾讯点击:(165)　　评论:(0)　　加入收藏

腾讯将允许支付引入淘宝和天猫分享到微信

1.腾讯将允许支付引入淘宝和天猫分享到微信腾讯和阿里巴巴正在制定互通计划，腾讯将允许阿里系电商信息分享到微信，阿里巴巴会将腾讯的微信支付引入淘宝和天猫。值得一提的是，...【详细内容】

2021-08-10　　Tags: 腾讯点击:(67)　　评论:(0)　　加入收藏

腾讯电子签上线“小借条”功能，业内人士告诉你它好用在哪儿

作为普通人，我们经常会碰到想别人借点钱应急的情况。但在很多时候，大家的法律意识没那么强，加之借贷往往发生在熟人间。我们会发现，大多数这方面的问题，都在于丑话没说在前面”，华...【详细内容】

2021-07-29　　Tags: 腾讯点击:(153)　　评论:(0)　　加入收藏

腾讯被责令解除音乐独家版权，听歌不用再切换APP

近日，国家市场监管总局对音乐版权领域的垄断有了定论：责令腾讯控股有限公司解除网络音乐独家版权。酷我、酷狗、QQ音乐联合，虾米音乐被迫关停成为国内第一例反垄断回复市场竞争...【详细内容】

2021-07-27　　Tags: 腾讯点击:(81)　　评论:(0)　　加入收藏

不用安装好几个音乐软件了！腾讯音乐将“自愿”放弃独家音乐版权

版权问题越来越重视，音乐的版权也同样如此。如今音乐软件作为日常手机软件的必备，我们在听歌的时候，可能会莫名其妙遇到自己最喜欢的歌曲，突然遭到下架无法正常播放。所以为了...【详细内容】

2021-07-14　　Tags: 腾讯点击:(75)　　评论:(0)　　加入收藏

腾讯视频一分钟去水印-超简单

1.首先谷歌浏览器打开腾讯视频（网页版）2.其次，按下F12(开发者工具)，选中Elements 3.按下 ctrl+F ，输入“watermark”，点击选择第二个 4.选中后右击delete 删除元素，看视频就没水印...【详细内容】

2021-07-14　　Tags: 腾讯点击:(344)　　评论:(0)　　加入收藏

▌简易百科推荐

数据安全步入法治化轨道（政策解读）

非法购买公民信息、开发人脸认证规避技术……今年年初，广东省公安厅网安部门侦破全国首例破解“青少年防沉迷系统”的新型网络犯罪案件，抓获犯罪嫌疑人13名，查处非...【详细内容】

2021-12-28　　　　人民日报客户端　　Tags:数据安全步　点击:(5)　　评论:(0)　　加入收藏

倒计时！企业QQ即将下架，社交QQ会被下架吗？

就在今天，腾讯方面宣布将在2022年1月31日下架企业QQ和营销QQ，其实这一消息的降临并不让笔者意外，因为早在今年的10月28日20点之后，企业QQ和营销QQ就被停止了续费服务。相信很多...【详细内容】

2021-12-27　　科技探险家　　　　Tags:企业QQ 　点击:(20)　　评论:(0)　　加入收藏

电竞产业快速扩张

日前，上海交通大学发布《全球电竞之都评价报告》，对全球15个致力于发展电竞之都的城市进行评价，上海作为中国城市电竞发展的排头兵，其拥有众多优质电竞企业及完整产业集群，因此排...【详细内容】

2021-12-27　　经济日报　　　　Tags:电竞　点击:(3)　　评论:(0)　　加入收藏

微博整治：这种低俗头像，别再用了

为优化网络氛围环境，微博又开始整顿用户信息了。本月月初，微博官方发布公告，要求昵称中带有如“二货”“SB”“瘪三”“娘炮”等明显低俗或侮辱性词汇的用户尽快修改，否则将面临...【详细内容】

2021-12-24　　运了个营　　　　Tags:微博　点击:(10)　　评论:(0)　　加入收藏

Google OnHub路由器将于2022年底停止软件支持

昨日谷歌宣布，自2022年12月19日开始停止对OnHub的软件支持，OnHub路由器仍将提供Wi-Fi信号，但用户无法用谷歌Home应用程序管理它。无法更新Wi-Fi网络设置、添加额外的Wifi设备或...【详细内容】

2021-12-22　　雷峰网　　　　Tags:Google OnHub 　点击:(5)　　评论:(0)　　加入收藏

百度网盘青春版内测开启，iOS 端体验：不限速，支持导入原版文件

IT之家 12 月 20 日消息，百度网盘青春版 iOS 客户端今日晚间率先开启内测，安卓客户端将在稍后内测。使用苹果 iPhone 的IT之家小伙伴可以点此下载内测版，需要先下载 TestFlight...【详细内容】

2021-12-21　　IT之家　　　　Tags:百度网盘　点击:(10)　　评论:(0)　　加入收藏

滴滴司机注意！滴滴将调整拼车单

对于拼车单，是接还是不接，不少网约车司机表示很矛盾。接吧，钱少事多，常常跑了个寂寞，不接吧，车多客少，挑三拣四没饭吃。在平台大力推广拼车单之下，不少司机迫于生活压力，最终还是打...【详细内容】

2021-12-17　　网约车情报分享　　　　Tags:滴滴　点击:(9)　　评论:(0)　　加入收藏

饿了么短距离内预估配送时间不得低于30分钟，并试点推广智能头盔

蓝鲸TMT频道12月16日讯，据饿了么官方微信公众号，近日，在圆桌会上，蓝骑士与平台交流了配送安全问题。饿了么表示，线上将技术手段融入安全防护；线下将持续进行安全培训，并试点智能头...【详细内容】

2021-12-17　　　　金融界　　Tags:饿了么　点击:(24)　　评论:(0)　　加入收藏

GitHub 年度报告重磅发布

开源最前线（ID：OpenSourceTop）猿妹编译项目地址： https://github.com/restic/restic全球知名代码托管平台 GitHub 今天就重磅发布了今年的年度报告——《2021 年度 O...【详细内容】

2021-12-17　　Python部落　　　　Tags: 　点击:(9)　　评论:(0)　　加入收藏

《网络短视频内容审核标准细则》修订版发布

新京报快讯据中国网络视听节目服务协会网站消息，12月15日，中国网络视听节目服务协会发布了《网络短视频内容审核标准细则》（2021）。中国网络视听节目服务协会组织有关短视频平...【详细内容】

2021-12-16　　　　新京报　　Tags:短视频　点击:(11)　　评论:(0)　　加入收藏

推荐资讯

聊聊如何自定义数据脱	河南人到底有多爱吃面
人称“犬中四煞”的4	离婚后，约定每月给孩子
“三皇五帝”分别是哪	印度低种姓群体如何翻
日本研发“飞行摩托”	2021年Steam最畅销游