当推荐遇到社交：美图的推荐算法设计优化实践

时间：2019-09-09 13:49:06 来源：作者：

机器之心专栏

作者：汤斌

本文是美图高级算法专家汤斌的一篇文章，重点介绍了社交网络背景下推荐算法面临的挑战，以及应对的方法。

在美图公司社交战略部署下，推荐算法存在多方面的挑战，为了解决这些挑战，我们团队从工具和算法两个方面分别开展了工作。

在工具上，我们开发了 MML 机器学习平台，提供从数据分析到模型在线服务的全流程开发及部署支持。基于 Tensorflow，我们内部自研了 Bamboo 建模框架，提供了丰富的 SOTA 模型，常用 Layers 以及其它建模所需的组件，模型离线评估等，让算法工程师专注网络结构的设计。

在算法上，我们将推荐排序的演进划分成四个阶段，从线性模型+大规模人工组合特征，到非线性模型+少量人工特征，再到深度学习模型+用户行为序列特征，最后是从单目标优化到多目标优化。推荐排序四个阶段的演进，又可以归纳为三个方面的工作，分别是模型优化、特征工程，以及多目标优化。

在过去的一年，我们在美拍，累计提升人均关注 65.06%，人均时长 56.07%。美图秀秀，累计提升人均关注 14.93%，人均时长 10.33%。在这一年的实践中，我们进行了很多的尝试，在这里也和大家分享我们过去的一些尝试和踩过的一些坑，希望能让大家有所收获。

推荐算法的技术挑战

目前，美图公司旗下拥有多款社交产品，比如美图秀秀社区、美拍短视频社区等。针对这几款社交产品，不管在内容上还是产品背景上都有着自己的特点。比如美图秀秀从工具向社区转型，如何让用户进行内容消费并且产生持续消费成了我们需要重点考虑的问题。而对于美拍，用户本身有很强的内容消费属性，在留存的基础上如何吸引更多的用户是当前主要的考虑点。

针对多个不同形态的社交产品，推荐算法存在以下三个方面的挑战：

场景多，人力少：多款社交化产品合计十余个推荐场景，在当前的人力下，工作量是比较艰巨的；
场景、用户差异大：不同场景下，用户的消费习惯和使用意图，以及内容的属性存在比较大的差异，比如，美图秀秀社区以图文为主，美拍以短视频为主，导致不同场景下的模型不能简单复用；
产品、目标迭代快：用户的生活习惯不是一成不变的，我们的社交产品也时刻处在不同的发展阶段，需要根据用户的诉求，以及我们产品的发展需求及时调整推荐算法的优化目标。

为了解决上述挑战，我们分别从工具和算法两个方面入手。在工具上，去年我们开发了 MML 机器学习平台，提供从日志处理到模型在线服务的一站式解决方案。在算法上，我们在美图推荐场景上进行了良好的实践，针对目前存在的问题以及产品的需要，进行了很多有益的尝试，也获取到了一些经验。下面我将从工具和算法这两方面和大家分享下。

工具篇：MML 机器学习平台

MML，全称 Meitu machine Learning Platform，是一站式机器学习服务平台，为用户提供从数据预处理，特征与样本生产，模型构建、训练与评估以及模型在线服务的全流程开发及部署支持。其平台架构图见图一。

图一平台架构图

MML 机器学习平台包括三个主要模块：

Spark Feature：负责数据分析、特征工程，以及样本拼接。Spark Feature 基于 Spark SQL 进行开发，用户通过编写 SQL 以及配置样本拼接 JSON，即可实现特征以及样本生产的工作；
Bamboo：基于 tensorflow 开发，负责模型训练、离线效果评估。Bamboo 实现了推荐领域大量的 State of the Art 的模型，并且提供了丰富的 Layers，以简化算法同学的建模工作。在训练方面支持多种并行训练方式，同时通过对代码的优化实现了较高的训练效率；
MML Serving：负责模型的在线服务。底层通过 C++ 实现，在内存和并发上做了大量的优化，支持同时请求多个模型，以及在线热更。灵活的架构让我们能够很方便地接入各种机器学习框架训练的模型。

Bamboo

如果说 Spark Feature 和 MML Serving 是 MML 机器学习平台的手和脚，那么 Bamboo 就是 MML 机器学习平台的大脑。Bamboo 负责机器学习模型的训练和效果评估。我们底层采用 tensorflow 开发，对外提供封装好的组件。总的来说，Bamboo 具有以下优点：

便捷：内置了近几年推荐领域的 SOTA 模型，以及建模常用的 Layers，并且内置了部分公共数据集的访问接口，能够支持从本地磁盘，以及 HDFS 读取训练数据。数据、训练、模型评估、模型导出通过配置化实现，算法同学可以专注于模型的设计；
高效：采用 tensorflow 底层 API 和 Estimator 来实现，并遵循 tensorflow 官方性能优化指南，最大限度提升模型训练效率，相比 Keras 以及内部未优化版本，单卡训练效率有数倍提升。同时，能够支持同步、异步等多种并行训练方案；
可扩展：Bamboo 的最初的设计目标是作为 tensorflow 的补充，因此在整个设计过程充分考虑了扩展性，能够支持采用 Bamboo 提供的 API 或者使用 tensorflow 原生 API。良好的分层设计，方便使用方进行模块的复用和重构。

MML Serving

MML Serving 决定了模型能否上线提供服务以及在线服务的效率。去年下半年，我们上线了采用 C++ 开发的新版 MML Serving，通过内存和并发的优化，让我们整体预估耗时减少了 50%，服务初始化耗时减少了 50%，内存使用量降低了 77%。通过压测发现，服务在高并发下，整体表现稳定。另外良好的架构设计，可以很方便接入各种第三方机器学习库，目前已经内置了对 tensorflow 和 xgboost 模型的支持。

平台收益

MML 机器学习平台上线后，生产力得到了极大的释放。可以简单归纳为四个方面的收益：

开发效率的显著提升：平台上线前，算法同学需要同时开发样本拼接、模型训练、在线服务等多个模块的代码，平台上线后，算法同学可以专注于模型网络结构的设计；
模型迭代周期显著降低，模型调研的范畴大幅扩大：平台上线前，算法同学需要花费较多的精力在工程模块的开发上面，而且只能在几个固定的算法框架下进行一些有限的尝试。新框架不仅减少了算法同学的工程负担，同时因为框架的灵活性，使得算法的调研不再局限于几个固定的模式，模型迭代效率得到了极大的提升；
机器成本：新平台效率上的提升，也同样体现在机器资源的节约上面，在美拍热门排序上，接入新平台后，机器节约了一半；
经验沉淀：此前各个业务维护自己的模型代码，经验很难进行交流和复用。新平台很好地解决了这部分问题。

算法篇：美图推荐排序实践

工具的价值落地到业务中，需要通过算法来实现。美图推荐排序算法大致可以分成四个阶段：第一个阶段是以 LR 为主的线性模型，组合大规模人工特征。第二个阶段发展成了以深度学习为主的非线性模型，以及少量的人工特征。再然后，为了减少人工特征工程的工作，我们开始调研以用户行为序列为主的原始特征，此时线上的主力模型是深度学习模型以及用户行为序列特征。最后一个阶段我们从单目标模型演进到了现在的多目标模型。排序模型四个阶段的演进可以归纳为模型、特征、优化目标三个方面的工作，下面我将和大家一一进行介绍。

美图推荐排序实践——模型演进

2018 年，我们上线了第一个基于何向南在 SIGIR 2017 发表的《Neural Factorization Machines for Sparse Predictive Analytics》改进的模型——NFM-v4。相比原论文，我们的主要改进点是通过一个线性变换，将变长稀疏的原始高维特征压缩到一个定长稠密的低维实数空间，从而屏蔽了模型在输入特征处理上的差异，可以将精力更多放在特征的挖掘上。

但是，将几十万维的高维空间直接压缩到几百维，存在一定的信息损失，因此，在 NFM-v4 的基础上，我们通过将部分高维 id 特征单独建模，比较好的解决了这个问题，在业务指标上，也有不错的效果提升，美拍的人均播放时长增加了 4.75%，人均有效行为数增加了 3.45%。

不过，NFM 存在的一个问题是，bi-interaction pooling 认为特征二阶交叉的权重是相等的，这种假设在多数场景下并不符合数据的真实分布。因此，在 NFM 的基础上，我们提出了 Neural Field weighted Factorization Machines（NFwFM）模型，通过引入一个权重向量，来建模二阶交叉特征的权重。通过二阶向量不等权相加，业务指标整体提升较为明显。其中美拍人均播放时长增加 3.78%，播放用户数增加 1.74%，美图秀秀点击率提升了 5.689%，人均使用时长增加 2.53%，新用户点击率增加 2.701%。

美图推荐排序实践——特征工程

从 LR 升级到 NFwFM，我们虽然减少了大量的特征组合上的工作，但是，如何从数据中挖掘对当前业务有效的特征？如何进行特征选择？依旧占据了我们的主要精力。去年，工业界和学术界，都发表了大量关于 User Behaviors Sequence 建模的新工作，随后，我们也开始跟进这一方面的工作，并在我们的业务中进行了尝试，通过端到端的建模，减少我们在特征工程上的工作。

目前，我们主要尝试了三种用户行为序列建模的方法，包括 Sum/Mean Pooling 、 RNN 、 Attention 等。在我们的业务场景下，RNN 的离线效果并不理想，原因推测是用户点击 feed 的先后顺序并不存在某种固定的模式，而主要取决于用户对所推荐 feed 的偏好，此外，RNN 的训练耗时也增加比较明显。

Sum/Mean Pooling 的方式虽然简单，但是在长行为序列建模上，效果相比其它两种方式表现得更加优异，因此是我们目前线上建模用户长序列特征的主要手段。

我们也对比了基于 Attention 的方法，离线效果相比 Sum/Mean Pooling 有略微提升，但是考虑到计算复杂度，Attention 只适合于序列长度较短的场景。

在美拍，美图秀秀社区，以及 push 业务都尝试了用户行为序列特征建模，各项业务指标均有较大幅度的提升，美拍人均时长提升了 12%，秀秀的点击率提升了 5%，push 的到达点击率提升了 10%。

随着模型和特征的复杂度显著增加，在线 inference 的耗时已经无法满足业务的要求。为了解决模型推理效率的问题，一方面我们通过 C++ 重写了模型在线推理服务——MML Serving，并在内存和并发上做了大量优化，使得 QPS 和稳定性有了大幅度提升。另一方面，我们实现了多塔网络的模型框架，通过离线预计算 user 和 feed 子网络的输出，并存到 DB 中，在线通过检索 DB 的方式，避免了实时计算 user 和 feed 子网络的庞大计算量。收益也是很明显，其中排序预估耗时从 100+ms 下降到了 7ms，秀秀社区 push 服务预估耗时从单尾号 5 小时降低到了 3 分钟，到达点击率平均提升 23.9%。

美图推荐排序实践——多目标优化

随着产品优化的深入，单一的模型优化目标已经无法准确刻画产品的迭代方向，为了满足多样化的产品需求，我们开始探索多目标优化。整个多目标优化的路线，大概经历了四个阶段：样本 reweight，多目标模型，多模型，多个多目标模型。下面我将对这四个阶段的工作分别进行介绍。

多目标优化之样本 reweight

样本 reweight 是一种简单轻量的可用于解决多目标问题的做法，它借鉴了 imbalanced data 的典型做法，在保持模型优化的主目标不变的情况下，通过提高次要目标的正样本占比，来模拟多目标的联合概率分布。

我们在美拍和美图秀秀社区上，对增加关注目标进行了尝试。美拍在播放时长略微上涨的情况下，实现了人均关注 10.06% 的提升。美图秀秀社区关注转化率提升了 12.03%，不过点击率也有略微的下降。

多目标优化之多目标模型

样本 reweight 的方式改变了样本的原始分布，导致主目标存在比较大的预估偏差。同时，因为次要目标是通过主目标的网络结构来实现，无法对各个目标的模型分别进行调优，模型结构优化存在比较大的局限性。因此，我们开始尝试多目标模型建模。

多目标模型通过共享底层的网络输入，实现信息共享，再根据每个目标的数据特点，分别构建各个目标的输出网络，得到每个目标的输出。

在美图的多个社交场景中，我们进行了尝试，并取得了比较大的在线提升。其中，在美拍双列 feed 流场景下，人均关注提升 11.43%，人均播放时长提升 12.45%。美图秀秀首页 feed 流，点击率提升 1.93%，关注率提升 2.9%。美图秀秀下滑 feed 流，关注率提升 9.3%，人均时长提升 10.33%。

多目标优化之多模型

虽然多目标模型在业务上取得了比较大的提升，但是仍然存在一些问题。典型的问题包括：

当不同任务的目标相关性较弱，或者损失函数的输出值范围差异较大时，多目标模型的调优存在比较大的困难；
使用多目标模型，会导致不同目标的优化存在比较大的耦合，延迟整体优化进度，在产品要求快速迭代的场景下，这种技术手段不一定能够很好的满足业务需求。

为了解决多目标模型存在的一些问题，我们通过拆分多目标模型的各个目标，得到多个单目标模型，并对每个单目标模型分别进行优化。在美拍双列 feed 流场景下，我们进行了相应的尝试，在人均时长不变的情况下，人均关注提升了 2.98%。通过进一步调整模型的优化目标，人均时长再次提升了 19.37%，人均关注提升了 14.1%。

多目标优化之多个多目标模型

当推荐场景的优化目标增加，多模型的方案会存在维护成本高，线上资源开销大，各个任务的模型无法利用其它任务的数据等问题。

综合多模型和多目标模型的优点，采用多个多目标模型是解决多目标任务的有效手段。在美拍场景下，通过同时优化关注、时长、播放等目标，人均关注提升 12.18%，活跃留存提升 25.67%。

未来规划

未来，我们将继续完善 MML 机器学习平台的建设，并计划对 Bamboo 项目进行开源。在算法上，我们开始了强化学习在推荐领域的调研，同时，对多目标建模、行为序列特征建模、以及 Embedding 技术等也将持续进行跟进和优化。期待后续能和大家有更多地探讨和交流。

作者简介

汤斌，美图高级算法专家，曾在腾讯任高级研究员，硕士毕业于哈尔滨工业大学。主要从事推荐算法，点击率预估以及自然语言处理方面的相关研究。在工业界的大规模推荐与排序算法实践上积累了丰富的经验。

Tags：推荐算法点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com)，我们将及时更正、删除，谢谢。

▌相关推荐

阿里飞猪推荐算法探索实践

导读：本文的主题为阿里飞猪推荐算法探索实践，首先会介绍电商背景下主流推荐技术的发展，例如基于全空间的CVR预估技术的发展历程等 ( ESMM / ESM^2 / HM^3 )；接着会重点结合旅行...【详细内容】

2021-10-21　　Tags: 推荐算法点击:(56)　　评论:(0)　　加入收藏

淘宝详情页分发推荐算法总结：用户即时兴趣强化

商品详情页是手淘内流量最大的模块之一，它加载了数十亿级商品的详细信息，是用户整个决策过程必不可少的一环。这个区块不仅要承接用户对当前商品充分感知的诉求，同时也要能肩负起其他来源导流流量的留存，最终尽可能地激活...【详细内容】

2021-08-04　　Tags: 推荐算法点击:(89)　　评论:(0)　　加入收藏

国外知名互联网公司的系统设计和推荐算法汇总

架构头条作者 | theinsaneapp.com译者 | 张健欣策划 | 万佳今天，我们会讨论一些不同的东西，例如 Spotify、YouTube、Signal Messenger、Amazon 等科技巨头的推荐算法，以及像 U...【详细内容】

2021-07-15　　Tags: 推荐算法点击:(121)　　评论:(0)　　加入收藏

阿里1688直播推荐算法实践

导读：近年来，电商呈现内容化的趋势，以直播和短视频为首，内容化提升了用户体验，增加了平台收益。作为电商的重要流量入口，推荐算法除了应用于商品，现在也被应用于直播场景。我们将以阿里的B类电商网站1688为例，分享直播推荐相...【详细内容】

2021-04-21　　Tags: 推荐算法点击:(287)　　评论:(0)　　加入收藏

论淘宝搜索推荐算法排序机制及2021年搜索变化的方向

【写在前面】淘宝搜索引擎至今已经迭代了多轮，搜索排序也已经从最开始的统计模型升级到机器学习模型；2010年前是没有标签概念的就是基础标签这些都没有，随着算力的增强，2010年后...【详细内容】

2020-12-29　　Tags: 推荐算法点击:(222)　　评论:(0)　　加入收藏

一直抖音一直爽？这一切的背后都是因为人工智能推荐算法

指尖在抖音上划过，满屏幕的颜值少女，满屏幕的乡村野趣，满屏幕的都市传奇，满屏幕的生活乐趣。在碎片化的时间里，我们拿着手机，看着屏上的视频，充满了视觉的欢乐与笑语。手指迅速地划...【详细内容】

2020-09-28　　Tags: 推荐算法点击:(200)　　评论:(0)　　加入收藏

饿了么推荐算法演进及在线学习实践

本次分享的主要内容包括以下三个方面:首先是介绍推荐业务背景，包括推荐产品形态及算法优化目标；然后是算法的演进路线；最后重点介绍在线学习是如何在饿了么推荐领域实践的。...【详细内容】

2020-09-21　　Tags: 推荐算法点击:(88)　　评论:(0)　　加入收藏

个性化推荐算法（推荐系统）概要

读者读完本文后，你会知道每类范式常用的算法有哪些、实现的思路是什么、以及常用的应用场景。本文也可以作为读者落地推荐算法到真实推荐场景的参考指南。一、推荐算法与产品...【详细内容】

2020-08-31　　Tags: 推荐算法点击:(147)　　评论:(0)　　加入收藏

一文了解深度推荐算法的演进

近些年，随着深度学习理论，GPU 和 CPU 等计算机硬件，TensorFlow、Caffe、PyTorch 等算法平台的发展，深度学习算法在个性化推荐、计算机视觉、自然语言处理、语音识别等领域大放光...【详细内容】

2020-08-04　　Tags: 推荐算法点击:(53)　　评论:(0)　　加入收藏

今日头条算法原理—— 3分钟了解今日头条推荐算法原理

今天，算法分发已经是信息平台、搜索引擎、浏览器、社交软件等几乎所有软件的标配，但同时，算法也开始面临质疑、挑战和误解。今日头条的推荐算法，从2012年9月第一版开发运行至今，...【详细内容】

2020-06-22　　Tags: 推荐算法点击:(66)　　评论:(0)　　加入收藏

▌简易百科推荐

如何从 Kafka 看时间轮算法设计

前言Kafka 中有很多延时操作，比如对于耗时的网络请求（比如 Produce 是等待 ISR 副本复制成功）会被封装成 DelayOperation 进行延迟处理操作，防止阻塞 Kafka请求处理线程。Kafka...【详细内容】

2021-12-27　　Java技术那些事　　　　Tags:时间轮　点击:(1)　　评论:(0)　　加入收藏

数据缩至1/5000，模型准确率却翻倍，谷歌新“蒸馏法”火了

博雯发自凹非寺量子位报道 | 公众号 QbitAI在炼丹过程中，为了减少训练所需资源，MLer有时会将大型复杂的大模型“蒸馏”为较小的模型，同时还要保证与压缩前相当的结果。这就...【详细内容】

2021-12-24　　量子位　　　　Tags:蒸馏法　点击:(11)　　评论:(0)　　加入收藏

定位以及地图重建算法汇总

分稀疏重建和稠密重建两类：稀疏重建：使用RGB相机SLAMOrb-slam,Orb-slam2,orb-slam3：工程地址在： http://webdiis.unizar.es/~raulmur/orbslam/ DSO（Direct Sparse Odometry）因为...【详细内容】

2021-12-23　　老师明明可以靠颜值　　　　Tags:算法　点击:(7)　　评论:(0)　　加入收藏

图解希尔排序，超详细非常好理解

1. 基本概念希尔排序又叫递减增量排序算法，它是在直接插入排序算法的基础上进行改进而来的，综合来说它的效率肯定是要高于直接插入排序算法的；希尔排序是一种不稳定的排序算法...【详细内容】

2021-12-22　　青石野草　　　　Tags:希尔排序　点击:(6)　　评论:(0)　　加入收藏

ROP和栈迁移的探究

ROP是一种技巧，我们对execve函数进行拼凑来进行system /bin/sh。栈迁移的特征是溢出0x10个字符，在本次getshell中，还碰到了如何利用printf函数来进行canary的泄露。ROP+栈迁移...【详细内容】

2021-12-15　　星云博创　　　　Tags:栈迁移　点击:(22)　　评论:(0)　　加入收藏

一起学排序算法 - 冒泡排序

一、什么是冒泡排序1.1、文字描述冒泡排序是一种简单的排序算法。它重复地走访要排序的数列，一次比较两个元素，如果他们的顺序错误就把他们交换过来。走访数列的工作是重复地...【详细内容】

2021-12-15　　　　晓掌柜丶韶华　　Tags:排序算法　点击:(16)　　评论:(0)　　加入收藏

哈希表原理

在了解golang的map之前，我们需要了解哈希这个概念。哈希表，又称散列表(Hash table)，是根据键(key)而直接访问在内存储存位置的数据结构。也就是说，它通过计算出一个键值的函数，将...【详细内容】

2021-12-07　　一棵梧桐木　　　　Tags:哈希表　点击:(14)　　评论:(0)　　加入收藏

面试官：讲讲雪花算法，越详细越好

前面文章在谈论分布式唯一ID生成的时候，有提到雪花算法，这一次，我们详细点讲解，只讲它。SnowFlake算法据国家大气研究中心的查尔斯·奈特称，一般的雪花大约由10^19个水分子...【详细内容】

2021-11-17　　小心程序猿QAQ　　　　Tags:雪花算法　点击:(24)　　评论:(0)　　加入收藏

终于有人把排序算法讲明白了

导读：在大数据时代，对复杂数据结构中的各数据项进行有效的排序和查找的能力非常重要，因为很多现代算法都需要用到它。在为数据恰当选择排序和查找策略时，需要根据数据的规模和类型进行判断。尽管不同策略最终得到的结果完...【详细内容】

2021-11-04　　华章科技　　　　Tags:排序算法　点击:(40)　　评论:(0)　　加入收藏

字符串查找之 KMP算法

这是我在网上找的资源的一个总结，会先给出一个我看了觉得还行的关于算法的讲解，再配上实现的代码： Original author: Bill_Hoo Original Address： http://blog.sina.com.cn/s/bl...【详细内容】

2021-11-04　　有AI野心的电工和码农　　　　Tags: KMP算法　点击:(36)　　评论:(0)　　加入收藏

推荐资讯

聊聊如何自定义数据脱	河南人到底有多爱吃面
人称“犬中四煞”的4	离婚后，约定每月给孩子
“三皇五帝”分别是哪	印度低种姓群体如何翻
日本研发“飞行摩托”	2021年Steam最畅销游

如何利用抖音推荐算法，做到零到万的粉丝？