您当前的位置：首页 > 电脑百科 > 程序开发 > 编程百科

腾讯信息流内容理解技术实践

时间：2019-12-04 10:21:16 来源：作者：

+ 加入收藏

分享嘉宾：郭伟东腾讯高级研究员

文章整理：李传勇

内容来源：DataFunTalk

出品社区：DataFun

注：欢迎转载，转载请留言。

导读：目前信息流推荐中使用的内容理解技术，主要有两部分构成：1. 门户时代和搜索时代遗留的技术积累：分类、关键词以及知识图谱相关技术；2. 深度学习带来的技术福利：embedding。但是分类对于兴趣点刻画太粗，实体又容易引起推荐多样性问题，而 embedding 技术又面临难以解释的问题。这次主要介绍在信息流推荐中，腾讯是如何做内容理解克服上述问题的。主要包括：

项目背景
兴趣图谱
内容理解
线上效果

项目背景

1. 内容理解技术演进

① 门户时代：1995~2002年，主要代表公司：Yahoo、网易、搜狐、腾讯。互联网初期，因为数据较少，因此需要一个内容聚合的地方，人们才能够快速的找到信息。因此，门户通过 "内容类型" 对内容进行整理，然后以频道页形式满足用户需求。因为数据少，初期由人工对新闻进行分类。随着数据的增多，靠人工分类已经变得不现实，因此各大公司纷纷引入分类技术，自动化文本分类。此后，文本分类技术发展迅速。

② 搜索/社交时代：2003年~至今，主要代表公司：搜狗、腾讯、google、百度。随着网络的普及，数据的数量和类型的丰富，门户网站已经不能够承载信息分发的任务。于是，一种新的信息分发技术诞生——搜索。搜索除了需要分类信息以外，还需要精确知道文章是 "关于什么的"，关键词技术很好的解决了这个需求，于是也成为那个时期的研究热点。但是关键词技术有一个问题没办法克服：实体歧义问题 ( 如李白，究竟用户是找诗人李白，还是王者荣耀英雄李白 )。2012年 Google 提出知识图谱概念，可以用于解决上述的实体歧义问题，实体链指的问题也有了比较大的进展。

③ 智能时代：2012年~至今，主要代表公司：今日头条、出门问问等。使用2012年来作为智能时代的开始，主要是这一年头条成立。头条定义了一种新的信息分发形式——个性化推荐。虽然个性化推荐技术早有研究，但是对于信息分发这个任务有不可或缺的推动作用。

但是在信息推荐中，我们仍然在使用分类、关键词和实体等传统的内容理解方法，那到底在智能时代下是否需要新的内容理解方案呢？

2. 推荐和搜索的区别

推荐和搜索非常相似，都是根据已有的输入，返回跟输入相关的文章，但是对于内容理解的要求区别较大，下面仔细分析下原因：

搜索是给定一个 query 后，预测 doc 被点击的概率进行排序。大致的处理流程如下：首先对 query 分词，得到 < term, weight> 的一个列表 ( 去除停用词等不重要的词 )，然后根据每一个 term 拉倒排索引 document list 做召回，再对召回的所有文章取并集，最后做整体的排序。注意：这里排序的条件是所有 term 的交集 ( 条件概率标红部分 )。

推荐是给定一个 user 后，预测 doc 被点击的概率进行排序。大致的处理流程如下：首先查询 user 的用户画像，得到 < term, weight > 的一个兴趣点列表，然后根据每一个 term 拉倒排索引 document list 做召回，再对召回的所有文章取并集，最后做整体的排序。注意：这里排序的条件跟搜索是不同的，排序的条件是 term 的并集 ( 条件概率标红部分 )。例如用户阅读了王宝强马蓉离婚的新闻，会把 "王宝强"、"马蓉" 作为两个兴趣点积累到用户画像中，而对新的文章排序时候，实际上已经丢失了 "王宝强" 和 "马蓉" 兴趣点是同一篇文章同时积累的这个信息。

通过上述分析，我们可以得到这样的结论：搜索经过召回之后，排序有完整的上下文信息；但是在推荐中由于经过了用户画像，使用传统的内容理解方案时，排序会丢失用户阅读的上下文信息。因此，推荐对于内容理解需要保留完整的上下文，即把 "王宝强马蓉离婚" 当做一个完整的兴趣点，而不仅仅像搜索一样分别保留 "王宝强" 和 "马蓉"。

3. 用户为什么会消费

传统的内容理解仅仅解决了文章是什么的问题，但是对于用户 "为什么会消费" 却没有考虑。举个例子来说，如果我们的一个朋友看了一款 XC60 的汽车，我们会给他推荐什么内容呢？我们一定不会不停的推荐 XC60，而是会猜测朋友可能是喜欢沃尔沃这个品牌，比较看重安全性，或者对于空间有一定要求的 SUV。因此，如果要做好一个推荐系统，内容理解同样也需要相应的能力，挖掘用户真实消费意图。

4. 传统的 NLP 的技术缺陷

以上是整个项目的背景，我们总结一下。传统 NLP 技术存在缺陷：

分类：人工预定义，量级千规模；优点：结果可控性高，人工可以参与运营；缺点：粒度太粗，难以刻画用户粒度的兴趣点，推荐不精准；
关键词：规模庞大，量级可达千万；优点：技术成熟；缺点：绝大多数词不能反映用户兴趣，需要配合兴趣白名单一起使用，不能解决歧义的问题；
实体词：常见实体百万量级；优点：精准刻画用户兴趣，结果可控性高；缺点：推荐内容单一，容易造成信息茧房；
LDA：量级千规模，优点：技术成熟，可以人工预先选择出有意义的类簇；缺点：规模和分类相当，粒度太粗，与分类问题相同；
Embedding：量级不受限制；优点：研究热点，有成熟技术；缺点：难以解释。

个性化推荐需求：

推荐系统需要积累用户模型，因此需要保留完整的上下文，语义粒度要完整；
不同的人消费同一篇文章背后原因可能不同，因此需要有一定的推理能力。

因此，传统的内容理解方案并不能很好的满足个性化推荐的需求。个性化推荐不仅需要传统的内容理解方式，还需要一种能够有完整上下文，并且具有推理用户真实消费意图的能力。

兴趣图谱

1. 兴趣点图谱

根据上述分析，我们提出了兴趣点图谱，用于解决上述个性化推荐中遇到的问题。兴趣点图谱由四层组成：分别为：分类层、概念层、实体词和事件层。下面分别介绍各层的内容：

分类层，一般是由 PM 建设，是一个严格树状的结构，一般在1000左右个节点；
概念层：有相同属性的一类实体称之为概念，例如老年人专用手机、省油耐用车等；
实体层：知识图谱中的实体，如：刘德华，华为 P10 等；
事件层：用来刻画某一个事件，例如：王宝强离婚、三星手机爆炸等。

分类层主要解决人工运营的需求；概念层推理用户消费的真实意图；实体层负责一般兴趣点的召回；事件层精准刻画文章内容。下面介绍如何构造兴趣点图谱。

2. 概念挖掘

概念本质是一种短语，其实短语挖掘的论文非常多，像韩家炜老师团队就有很多相关的论文，但是概念有自己的独特性：

① 没有训练样本，并且人工难以标注。因此只能通过弱监督方法解决冷启动的问题，然后使用监督方式提升覆盖。

② 粒度问题。比如 "明星" 是一个概念，但是太泛，不能精准刻画用户兴趣，但是 "身材好的女明星" 就很合理，那如何描述粒度呢？使用 UGC 数据，用户真实表达需求。

因此，具体挖掘时，我们使用了搜索数据，通过用户的点击行为进行半监督算法的学习。具体算法如上图所示：

挖掘概念使用的是搜索数据，每一个概念都有多个点击的网页，对网页进行实体抽取，然后统计实体和概念的共现频次就可以获得较为准确的上下位关系，我们在 KDD 的 paper 中有详细的介绍，这里就不再重复。

3. 热门事件挖掘

事件指的是热门事件。如果一个事件比较热门，网友就会有了解需求，会通过搜索引擎来查询事件，因此我们使用 query 作为热门事件挖掘的来源。

一个比较常见的方法是根据事件搜索量变化趋势判断，常规的做法是 BRD ( Burst Region Detection )，判断时间序列上是否有爆发点。但是 BRD 会遇到一些归一化，甚至多 point 的问题，于是我们采用了上图的方式克服上述问题：

热门识别：时序分析，识别热门 query。首先定义一个热门事件的趋势模板；然后对第一步预处理后的时序数据与热门模板进行相似度计算，如果相似度很高，说明趋势一致，则为热门事件，否则就是非热门。相似度计算的方式最早用的距离是欧拉距离，但是由于欧拉距离需要严格的时序对齐，会造成一些 bad case，因此改用 DTW 算法。
话题检测：同一个事件会有多种表述方法，对应多个 query，因此需要把相同事件的 query 聚类到一起，形成话题。
事件识别&命名：热门的话题中往往会伴随一些非事件型的话题，如热门美剧更新时，会出现一个热度高潮，上述方法会混入一些非事件，因此我们需要对热门的话题做一个分类。一个非常有效的特征是 url 中的一些单词，会很有区分性。

4. 关联关系

个性化推荐系统中除了要满足用户当前兴趣以外，还需要探索到用户未知的潜在兴趣点，扩展用户阅读视野。因此需要对节点计算关联关系。目前我们仅针对实体做了关联关系的计算。

大家很容易想到，如果两个实体经常会在同一篇文档中出现，应该就是高关联的；或者用户经常连续搜索，即搜完 "刘德华"，然后会马上搜索 "朱丽倩"，应该也是高关联的。确实这种直觉是正确的。虽然这种方法准确率很高，但是会遇到一些问题：没有共现过的，会被认为没有任何的关系；对于共现少的 pair 对，关系的密切度计算误差也会比较大。

因此，需要通过实体向量化的形式克服上述问题。上述的共现数据可以作为正例，负样本采用同类实体随机负采样，正负样本比例1:3，通过 pair wise 的 loss 进行训练，得到每个实体的 embedding，然后计算任意两个实体的关联度。

内容理解

1. 文本分类

主题分类层是 PM 整理的，但是 PM 整理的过程中可能会存在一些认知偏差。可以使用用户的点击行为对内容进行聚类，聚完类之后让 PM 去标注，从而总结出一些更适合的类别用于描述用户的兴趣。

2. 关键词抽取

我们使用了比较传统的关键词提取思路，利用传统特征工程 + GBRank 算法排序。在实际中会遇到这样的问题，如示例，Twitter 出现在 title 中的实体，传统的方式会把 Twitter 分数计算的很高，但是这篇文章中却不是重点，重点是两支 LOL 战队的骂战。于是我们在 BGRank 之后，加了 re-rank 层，为所有的候选词做一个重排序。词之间边关系使用关联关系 embedding 计算相似度得到。

3. 语义匹配

对于概念和事件类型的标签，原文中可能并不会出现，用抽取的方式就没有办法解决。我们采用召回+排序的方式解决。召回的逻辑分为关系召回和语义召回，其中关系召回会用到兴趣点图谱中的关系数据，召回 1-hop 内的节点作为候选，语义召回通过语义向量召回与 title 近邻的节点作为候选，然后用交互匹配的方式进行排序。如果 1-hop 内的节点数量太多，排序耗时会非常大，因此这里采用粗糙集的方式进行候选的粗排，缩小候选集合再进行排序。

线上效果

实验部分，baseline 是仅用传统的实体和分类标签，而实验组除了实体和分类以外，同时使用概念和事件类型的兴趣点，最后线上效果提升明显。

今天的分享就到这里，谢谢大家。

Tags：信息流点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com)，我们将及时更正、删除，谢谢。

▌相关推荐

手机淘宝将大改版，首屏算法推荐、更多信息流

双十一前夕，手机淘宝即将迎来重大改版：手淘首页将全面信息流化，原本顶部显眼的焦点图展示广告将改成竖版，移动到页面下方算法推荐信息流的第一个位置。...【详细内容】

2020-09-15　　Tags: 信息流点击:(102)　　评论:(0)　　加入收藏

信息流广告是什么，为什么能够撼动搜索的地位？

在如今这个信息大爆炸的时代，人们的上网方式被各种新奇的渠道成功的从PC端转移到了移动端，这就使得争夺网民碎片化时间成为了各大互联网巨头的重点方向，字节跳动出台抖音和今日...【详细内容】

2020-08-10　　Tags: 信息流点击:(95)　　评论:(0)　　加入收藏

业绩前瞻 | 趣头条Q1收入预期升26%，信息流广告或展现一定抗风险能力

特别声明：本文为新华网客户端新媒体平台“新华号”账号作者上传并发布，仅代表作者观点，不代表新华号的立场及观点。新华号仅提供信息发布平台。6月4日美股盘前，趣头条（QTT.US）将发...【详细内容】

2020-06-02　　Tags: 信息流点击:(47)　　评论:(0)　　加入收藏

最新百度信息流产品手册，带你全面了解百度产品

本篇给大家分享的是2月最新《百度信息流广告产品手册》，如果你对百度信息流还不够了解，那得仔细往下看了手册内容包含两部分：1、信息流广告市场分析2、百度信息流推广功能详解...【详细内容】

2020-05-22　　Tags: 信息流点击:(90)　　评论:(0)　　加入收藏

快手信息流广告推广投放效果如何

关于什么是快手信息流广告？如今的快手的活跃账户数达到 8亿+，日活跃账户数更是有2亿+。基于快手海量用户行为画像数据，快手客户端广告可以支持人群属性标签、场景定向、LBS、手...【详细内容】

2019-12-24　　Tags: 信息流点击:(135)　　评论:(0)　　加入收藏

腾讯信息流内容理解技术实践

分享嘉宾：郭伟东腾讯高级研究员文章整理：李传勇内容来源：DataFunTalk出品社区：DataFun注：欢迎转载，转载请留言。导读：目前信息流推荐中使用的内容理解技术，主要有两部分构成：1....【详细内容】

2019-12-04　　Tags: 信息流点击:(46)　　评论:(0)　　加入收藏

各大信息流平台推广特性

百度信息流：百度信息流旗下主要产品：百度、百度贴吧、百度手机浏览器等。优点：有搜索基础，关键词定向，能定向贴吧缺点：大多是搜索转化的，因此SEM思维固化严重百度搜索引擎占据国...【详细内容】

2019-12-02　　Tags: 信息流点击:(135)　　评论:(0)　　加入收藏

如何判断你的百度账户开通的是原生信息流

目前，百度针对所有账户都已经默认开通了信息流推广的入口（如下图），但并不是所有账户开通的都是原生信息流。信息流推广入口那么，如何来鉴别你目前的账户开通了原生信息流呢？我们来...【详细内容】

2019-11-22　　Tags: 信息流点击:(124)　　评论:(0)　　加入收藏

信息流这7种错误文案，很多人都有，快看看你占了没有

大概有50%的信息流广告文案创意，让人看不懂。本文列举了7类“看不懂”系列文案，再给出写出“说人话”文案的三个原则，其中会给到几个文案工具，希望对你有帮助。7种典型的“看不...【详细内容】

2019-10-29　　Tags: 信息流点击:(153)　　评论:(0)　　加入收藏

这14个信息流平台适用哪些产品？你知道嘛？

一、腾讯腾讯类社交平台基本达到覆盖全网用户，QQ类广告建议投放轻工业或生活类产品；微信类广告，需确认自己产品的用户群，明确产品调性，定向投放到目标人群。二、知乎知乎的用户...【详细内容】

2019-10-24　　Tags: 信息流点击:(182)　　评论:(0)　　加入收藏

▌简易百科推荐

最完整的Vue教程-从零开始编写可视化大屏

摘要（OF作品展示）OF之前介绍了用python实现数据可视化、数据分析及一些小项目，但基本都是后端的知识。想要做一个好看的可视化大屏，我们还要学一些前端的知识（vue），网上有很多比...【详细内容】

2021-12-27　　项目与数据管理　　　　Tags:Vue 　点击:(1)　　评论:(0)　　加入收藏

程序的执行流程和开发工具介绍

程序是如何被执行的&emsp;&emsp;程序是如何被执行的？许多开发者可能也没法回答这个问题，大多数人更注重的是如何编写程序，却不会太注意编写好的程序是如何被运行，这并不是一个好...【详细内容】

2021-12-23　　IT学习日记　　　　Tags:程序　点击:(9)　　评论:(0)　　加入收藏

单点登录(SSO)看这一篇还不够！这次不慌了

阅读收获✔️1. 了解单点登录实现原理✔️2. 掌握快速使用xxl-sso接入单点登录功能一、早期的多系统登录解决方案单系统登录解决方案的核心是cookie，cookie携带会话id在浏览器...【详细内容】

2021-12-23　　程序yuan　　　　Tags:单点登录( 　点击:(8)　　评论:(0)　　加入收藏

手把手教你构建一个简单的Eclipse RCP应用

下载Eclipse RCP IDE如果你电脑上还没有安装Eclipse，那么请到这里下载对应版本的软件进行安装。具体的安装步骤就不在这赘述了。创建第一个标准Eclipse RCP应用（总共分为六步）1...【详细内容】

2021-12-22　　阿福ChrisYuan　　　　Tags:RCP应用　点击:(7)　　评论:(0)　　加入收藏

浅析 Token 价值的意义及来源

今天想简单聊一聊 Token 的 Value Capture，就是币的价值问题。首先说明啊，这个话题包含的内容非常之光，Token 的经济学设计也可以包含诸多问题，所以几乎不可能把这个问题说的清...【详细内容】

2021-12-21　　唐少华TSH　　　　Tags:Token 　点击:(9)　　评论:(0)　　加入收藏

在VUE中实现效果"换一换"功能

实现效果：假如有10条数据，分组展示，默认在当前页面展示4个，点击换一批，从第5个开始继续展示，到最后一组，再重新返回到第一组 data() { return { qList: [], //处理后...【详细内容】

2021-12-17　　Mason程　　　　Tags:VUE 　点击:(14)　　评论:(0)　　加入收藏

阿里资深软件测试工程师总结的这几点，让小白轻松搞懂性能调优

什么是性能调优？(what) 为什么需要性能调优？(why) 什么时候需要性能调优？(when) 什么地方需要性能调优？(where) 什么时候来进行性能调优？(who) 怎么样进行性能调优？(How) 硬件配...【详细内容】

2021-12-16　　软件测试小p　　　　Tags:性能调优　点击:(19)　　评论:(0)　　加入收藏

抖音防烧屏脚本 – Tasker 脚本分享，适用于 OLED 屏幕

Tasker 是一款适用于 Android 设备的高级自动化应用，它可以通过脚本让重复性的操作自动运行，提高效率。不知道从哪里听说的抖音 app 会导致 OLED 屏幕烧屏。于是就现学现卖，自...【详细内容】

2021-12-15　　ITBang　　　　Tags:抖音防烧屏　点击:(23)　　评论:(0)　　加入收藏

Rust 核心团队“有毒”

11 月 23 日，Rust Moderation Team（审核团队）在 GitHub 上发布了辞职公告，即刻生效。根据公告，审核团队集体辞职是为了抗议 Rust 核心团队（Core team）在执行社区行为准则和标准上...【详细内容】

2021-12-15　　InfoQ　　　　Tags:Rust 　点击:(24)　　评论:(0)　　加入收藏

实践：使用AutoMeter快速生成API和测试用例的方法

一个项目的大部分API，测试用例在参数和参数值等信息会有很多相似的地方。我们可以复制API，复制用例来快速生成，然后做细微调整既可以满足我们的测试需求1.复制API：在菜单发布单...【详细内容】

2021-12-14　　AutoMeter　　　　Tags:AutoMeter 　点击:(20)　　评论:(0)　　加入收藏

推荐资讯

远程软件发展迅猛，ToDe	倒计时！企业QQ即将下架
极简Windows11与iPhon	iPhone信号问题，花10元
惊人数据：App Store中4	个人所得税递延纳税报
非常实用的 Python 库	等离子电视技术先进，为