您当前的位置:首页 > 电脑百科 > 程序开发 > 算法

文本理解算法在抖音风控上的应用

时间:2022-07-14 16:30:10  来源:  作者:字节跳动技术团队

背景

对抗是反作弊永恒的主旋律,面对对抗我们需要做到快速响应、见招拆招、在变化中发现不变的本质。

在反作弊场景中,黑产必须通过文本进行信息传递或触达受害者,而文本由于其生产成本低廉、传递信息能力强的特点成为了黑产与我们进行对抗的主要战场。文本理解算法为应对各类强对抗提供了文本检索、文本风险标签、风险信息提取的能力,以及一个文本模型训练平台。这些能力的组合使用可有效打击文本内容维度的作弊行为,现已在反作弊的各业务场景中得到应用。

文本检索

如上所述反作弊风控就是一个和黑产持续强对抗的过程,而强对抗的一个显著特点就是快速的变化,所以常规的先收集标注数据再训练模型的方式很难跟得上黑产变化的脚步。此外,黑产为了更多的获利,通常会采用广撒网的策略大批量将相似文本内容投放到平台。因此,由文本黑库和回扫构成的、只需单条标注数据的相似文本检索能力便成了我们应对这种快速变化的有力武器,可有效识别存量和增量的问题文本,进行合理的处置。

字面相似 vs 语义相似

一般来讲文本的相似大体可以分为字面相似和语义相似两种:

  • 字面相似:两条文本只有极少字符不一样则被认为是字面相似的
想要看片加我微
想要看片加我微信
  • 语义相似:通常刻画同一件事情的两条文本被认为是语义相似的
勿信海外高薪,避免上当受骗,天上不会掉馅饼。
不要被高薪所诱惑,天上不会掉馅饼,请朋友们远离诈骗

字面相似较语义相似条件更为严格,因此更加准确更适用于黑库,而语义相似则有更强的召回能力,更适用于回扫。

文本回扫 vs 黑库

适用场景


检索目标索引特点适用场景回扫大盘全量数据1. 大而全;
2. 与数据源绑定,不能随意定制索引内容;
3. 不支持样本随机增删离线;主要用于作弊内容历史存量治理黑库有限样本,一般为黑灰产作弊内容。(也可以把黑库当白库用,存储白样本)1. 小而精;
2. 用户可自定义创建自己的内容索引库;
3. 支持样本随机增删在线;主要用于新增作弊内容管控

技术方案

  • 回扫:从大盘在线获取数据建立索引,用户离线检索结果
文本理解算法在抖音风控上的应用

 

  • 黑库:从用户离线获取数据建立索引,在线检索结果
文本理解算法在抖音风控上的应用

 

能力提供

  • 回扫
    • 提供语义相似检索、关键词检索
    • 分钟级延迟
  • 黑库
    • 提供语义相似检索、字面相似检索、实体级相似检索、布尔规则检索、多模相似检索
    • 秒级延迟
    • 为防止入库样本发生误伤,提供前置防误伤及线上灰度标签能力

自动任务

为了对黑产的变化进行更快速的响应及更有效地利用人工审核数据,搭建了一套结合黑库和回扫的自动任务流,该流程让审出数据在短时间内便可起到上线拦截和存量处罚的作用

文本理解算法在抖音风控上的应用

 

风险标签

虽然黑产使用的文本在快速的变化,但只要黑产的目标是明确的,那么其使用的文本在类别语义层面便具有不变性。RiskText 风控文本标签体系便是针对抖音风控场景中一些主要语义类别设计的一套文本标签集

标签体系

为什么要标签体系

如果我们每次都是针对某个非常具体的业务场景使用少量特定场景数据训练模型,例如评论色导、评论赌博导流等模型,那么会有以下问题:

  • 标签未进行合理抽象,时效性明显,只适用于解决临时的、特定的业务问题,黑产变了模型就失效了
  • 由于数据量少,且无法长期积累,模型效果得不到保障
  • 数据来源杂乱且质量没有保证,导致标签质量没有保障
  • 模型与具体业务 case 耦合度过高,很难进行业务或场景复用
  • 模型和标签过于杂乱,不利于维护和能力输出

因此一套既具备可维护、可复用、鲁棒性强等特点,又能很好解决业务风控问题的文本分类标签体系就是我们需要的。

技术方案

模型架构:多 channel 输入对同音、形近变体更加鲁棒

文本理解算法在抖音风控上的应用

 

训练方法:样本增广 + 一致性训练

文本理解算法在抖音风控上的应用

 

样本降噪:解决数据中的错误标签

文本理解算法在抖音风控上的应用

 

自动迭代

  • 主动学习提高审出
  • 监控看板保证质量
文本理解算法在抖音风控上的应用

 

风险信息提取

黑产作弊文本经常会包含一些关键信息,作弊手法会变但关键信息不易变(或者变化成本较高),如果能够正确识别出文本中的关键信息,就能有效提升防御体系鲁棒性。目前已有建设 3 种风险信息提取能力:风险联系方式、风险变体、风险文本片段。其他场景下,比如电商业务中风险地址提取,也能够参考构建类似能力。

风险联系方式

抖音是流量聚集地,黑产为了谋利往往会将流量引到端外,进而实施违法行为,因此识别黑产留下的联系方式是一项重要能力。

能力全景图

从使用阶段划分,包含 判别->提取->风险分->风险标签。

  1. 判别(有没有联系方式):包含高准、高召两部分模型集,根据使用场景、治理阶段不同选取相应模型集。
  2. 提取(联系方式在哪):支持将提取出的变体联系方式归一化,并且有例行挖掘任务,不断补充新型变体数字字母。
  3. 风险分(有没有风险):基于联系方式风险特征 ,训练得到风险分模型。
  4. 风险标签(风险是啥):也区分高准和高召。高准通过人工标注,高召通过用户-联系方式二部图标签扩散方式得到。
文本理解算法在抖音风控上的应用

 

风险变体

黑产为了对抗文本识别能力,会对文本关键部分变体。由于大部分文本模型不会经常更新,导致模型效果会随着时间逐渐衰减。为了解决这个问题,将文本变体能力与下游文本能力解耦开,当变体识别能力提升时,所有下游任务均可受益。

PS:如果黑产文本变体太快,会不会跟不上,这样能力建设有啥意义?

前期的简单变体,我们的能力都会覆盖,越到后期,黑产创造新变体的成本会越高,更考验的是能力是否在不断迭代更新。

技术方案

变体挖掘->变体判别->变体映射表流程可自动化运行,不断挖掘得到新变体。

文本理解算法在抖音风控上的应用

 

风险文本片段

黑产除了对关键信息变体,还会对非关键文本做话术变换。黑产为了表达意图,关键信息不会很发散,来来回回可能就那几个关键词,但是会变换话术以此对抗识别模型,我们只需要从黑产发的大量文本中,找出表达意图的关键信息,即可提升系统对话术变换的鲁棒性。

文本理解算法在抖音风控上的应用

 

技术方案

整体技术方案总结来说就两步:

  1. 获取文本重要黑特征(对应图中黑词精筛表)。
  2. 挖掘特征之间的关系,挖掘结果导出为规则,挖掘算法使用的 FP-Growth。
文本理解算法在抖音风控上的应用

 



Tags:算法   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
诱导付费、自动扣费……微短剧被质疑借助算法精准“围猎”老年人
诱导付费、自动扣费、重复收费……聚焦身边的消费烦心事⑦丨一些微短剧被质疑借助算法精准“围猎”老年人中工网北京3月31日电(工人日报—中工网记者刘兵)...【详细内容】
2024-04-01  Search: 算法  点击:(11)  评论:(0)  加入收藏
分析网站SEO快速排名算法对网站具体的影响效果
亲爱的朋友们,今天我想和大家分享一个我们都关心的话题——网站SEO快速排名算法对网站我们身处一个信息爆炸的时代,如何在海量的信息中脱颖而出,成为了一个我们不得...【详细内容】
2024-03-28  Search: 算法  点击:(21)  评论:(0)  加入收藏
当prompt策略遇上分治算法,南加大、微软让大模型炼成「火眼金睛」
近年来,大语言模型(LLMs)由于其通用的问题处理能力而引起了大量的关注。现有研究表明,适当的提示设计(prompt enginerring),例如思维链(Chain-of-Thoughts),可以解锁 LLM 在不同领域的...【详细内容】
2024-03-12  Search: 算法  点击:(21)  评论:(0)  加入收藏
谷歌宣布更新搜索算法:打击AI生成内容,提高搜索结果质量
IT之家 3 月 6 日消息,谷歌于当地时间 5 日发文宣布,针对用户对搜索结果质量下降的反馈,将对算法进行调整,旨在打击 AI 生成的内容以及内容农场等垃圾信息,使用户能够看到更多“...【详细内容】
2024-03-06  Search: 算法  点击:(44)  评论:(0)  加入收藏
小红书、视频号、抖音流量算法解析,干货满满,值得一看!
咱们中国现在可不是一般的牛!网上的网友已经破了十个亿啦!到了这个互联网的新时代,谁有更多的人流量,谁就能赢得更多的掌声哦~抖音、小红书、、视频号,是很多品牌必争的流量洼地...【详细内容】
2024-02-23  Search: 算法  点击:(18)  评论:(0)  加入收藏
雪花算法详解与Java实现:分布式唯一ID生成原理
SnowFlake 算法,是 Twitter 开源的分布式 ID 生成算法。其核心思想就是:使用一个 64 bit 的 long 型的数字作为全局唯一 ID。在分布式系统中的应用十分广泛,且 ID 引入了时间戳...【详细内容】
2024-02-03  Search: 算法  点击:(54)  评论:(0)  加入收藏
简易百科之什么是搜索引擎的PageRank算法?
简易百科之什么是搜索引擎的PageRank算法?在互联网时代,搜索引擎是我们获取信息的重要工具。而PageRank算法则是搜索引擎的核心技术之一,它决定了网页在搜索结果中的排名。那么...【详细内容】
2024-01-24  Search: 算法  点击:(57)  评论:(0)  加入收藏
PageRank算法揭秘:搜索引擎背后的魔法师的工作原理
PageRank(PR)算法是由谷歌创始人之一的拉里·佩奇LarryPage命名的一种衡量网站页面重要性的方法。根据谷歌的说法,PageRank通过计算页面链接的数量和质量来粗略估计分...【详细内容】
2024-01-23  Search: 算法  点击:(46)  评论:(0)  加入收藏
程序开发中常用的十种算法,你用过几种?
当编写程序时,了解和使用不同的算法对解决问题至关重要。以下是C#中常用的10种算法,每个算法都伴随着示例代码和详细说明。1. 冒泡排序 (Bubble Sort):冒泡排序是一种简单的比...【详细内容】
2024-01-17  Search: 算法  点击:(46)  评论:(0)  加入收藏
百度最新的搜索引擎算法是什么样的?
百度搜索引擎算法是百度用来决定网页排名的算法。它是百度搜索技术的核心,也是百度作为全球最大的中文搜索引擎的基石。随着互联网的发展和用户需求的不断变化,百度搜索引擎算...【详细内容】
2024-01-10  Search: 算法  点击:(92)  评论:(0)  加入收藏
▌简易百科推荐
小红书、视频号、抖音流量算法解析,干货满满,值得一看!
咱们中国现在可不是一般的牛!网上的网友已经破了十个亿啦!到了这个互联网的新时代,谁有更多的人流量,谁就能赢得更多的掌声哦~抖音、小红书、、视频号,是很多品牌必争的流量洼地...【详细内容】
2024-02-23  二手车小胖说    Tags:流量算法   点击:(18)  评论:(0)  加入收藏
雪花算法详解与Java实现:分布式唯一ID生成原理
SnowFlake 算法,是 Twitter 开源的分布式 ID 生成算法。其核心思想就是:使用一个 64 bit 的 long 型的数字作为全局唯一 ID。在分布式系统中的应用十分广泛,且 ID 引入了时间戳...【详细内容】
2024-02-03   一安未来  微信公众号  Tags:雪花算法   点击:(54)  评论:(0)  加入收藏
程序开发中常用的十种算法,你用过几种?
当编写程序时,了解和使用不同的算法对解决问题至关重要。以下是C#中常用的10种算法,每个算法都伴随着示例代码和详细说明。1. 冒泡排序 (Bubble Sort):冒泡排序是一种简单的比...【详细内容】
2024-01-17  架构师老卢  今日头条  Tags:算法   点击:(46)  评论:(0)  加入收藏
百度推荐排序技术的思考与实践
本文将分享百度在推荐排序方面的思考与实践。在整个工业界的推广搜场景上,特征设计通常都是采用离散化的设计,需要保证两方面的效果,一方面是记忆,另一方面是泛化。特征都是通过...【详细内容】
2024-01-09  DataFunTalk  微信公众号  Tags:百度推荐   点击:(81)  评论:(0)  加入收藏
什么是布隆过滤器?如何实现布隆过滤器?
以下我们介绍了什么是布隆过滤器?它的使用场景和执行流程,以及在 Redis 中它的使用,那么问题来了,在日常开发中,也就是在 Java 开发中,我们又将如何操作布隆过滤器呢?布隆过滤器(Blo...【详细内容】
2024-01-05  Java中文社群  微信公众号  Tags:布隆过滤器   点击:(94)  评论:(0)  加入收藏
面向推荐系统的深度强化学习算法研究与应用
随着互联网的快速发展,推荐系统在各个领域中扮演着重要的角色。传统的推荐算法在面对大规模、复杂的数据时存在一定的局限性。为了解决这一问题,深度强化学习算法应运而生。本...【详细内容】
2024-01-04  数码小风向    Tags:算法   点击:(106)  评论:(0)  加入收藏
非负矩阵分解算法:从非负数据中提取主题、特征等信息
非负矩阵分解算法(Non-negativeMatrixFactorization,简称NMF)是一种常用的数据分析和特征提取方法,主要用于从非负数据中提取主题、特征等有意义的信息。本文将介绍非负矩阵分解...【详细内容】
2024-01-02  毛晓峰    Tags:算法   点击:(75)  评论:(0)  加入收藏
再谈前端算法,你这回明白了吗?
楔子 -- 青蛙跳台阶一只青蛙一次可以跳上一级台阶,也可以跳上二级台阶,求该青蛙跳上一个n级的台阶总共需要多少种跳法。分析: 当n=1的时候,①只需要跳一次即可;只有一种跳法,即f(...【详细内容】
2023-12-28  前端爱好者  微信公众号  Tags:前端算法   点击:(114)  评论:(0)  加入收藏
三分钟学习二分查找
二分查找是一种在有序数组中查找元素的算法,通过不断将搜索区域分成两半来实现。你可能在日常生活中已经不知不觉地使用了大脑里的二分查找。最常见的例子是在字典中查找一个...【详细内容】
2023-12-22  小技术君  微信公众号  Tags:二分查找   点击:(81)  评论:(0)  加入收藏
强化学习算法在资源调度与优化中的应用
随着云计算和大数据技术的快速发展,资源调度与优化成为了现代计算系统中的重要问题。传统的资源调度算法往往基于静态规则或启发式方法,无法适应动态变化的环境和复杂的任务需...【详细内容】
2023-12-14  职场小达人欢晓    Tags:算法   点击:(169)  评论:(0)  加入收藏
站内最新
站内热门
站内头条