您当前的位置：首页 > 手机百科 > 抖音/TikTok

为什么抖音从来没有重复内容？无关数据库，背后的算法有大学问

时间：2022-08-22 12:29:05 来源：网易作者：互联网资讯看板

+ 加入收藏

你在刷抖音的时候，有没有发现，抖音从来不会给你推送相同内容的视频？你可能会想，这有啥难的，给每个人都存一个记录，以后推送的时候避开就好了呀。nononono！可没有这么简单啊！

海量用户的重复内容过滤

这是一个非常严肃的问题。在互联网领域，重复推送是一件非常影响用户体验的行为。一旦出现重复内容，会大大增加用户跳出的几率。

搞数据库的同学会说：这还不简单？反正有用户日志，我们给每个人都存一个访问日志表，推送之前exists一下就好了。

怎么说呢，如果用户量只有你们公司几百号人，这个方案是没问题的。但是抖音、快手动辄几亿人，每天都刷，这得存多少份log？？每一个用户的log有多大？每一个推送都要从这个大log里exists一下，得耗多少时间？

等你exists一下，用户早就跑了好么？所以在抖音、快手动辄几亿日活，每人每天最少看几百个短视频的情况，如何快速推送不重复的内容是非常困难的事情。

高速过滤的秘密武器

需求：几亿个用户，每个用户有1~几万（甚至更多）个已看记录，快速判断下一个推送给用户的视频是否已经看过。

解决方案1-表级处理：每个用户一张表，存视频id，推荐之后，展示之前，过滤一下。这个表太多，表里的数据也太多，过滤效率太慢了。信息得进一步压缩，速度要再快点才行。

解决方案2-图计算：把每个用户与每个视频发生的关系都存到图数据库。推荐的时候直接通过关系过滤掉。这个虽然不用建N张表，只是存用户和视频的关系就行了。但是用过图数据库的人就知道，节点太多了，计算效果也是非常的慢。不行，信息还得进一步压缩。还能咋压缩啊？

解决方案3-位图：把所有用户当天是否登录的信息映射到一张位图中，这样我们就能迅速通过某个位是0还是1快速判定这个用户当天是否登录过系统。

假如说我们同样使用位图，把每个用户是否看过这个视频映射到位图中，是不是就可以通过某个位是0还是1快速判定这个用户是否看过这个视频呢？哆啦A梦告诉我们：可以！而且有更完善的方法--布隆过滤器！

布隆过滤器：1970年由布隆提出的一种方法，由随机映射函数和二进制向量组成，可以快速检索一个元素是否在一个集合中。

如布隆过滤器的描述，其实就是随机映射函数（hash散列）+二进制向量（位图）组成的。我们把任意需要存储的内容，经过hash散列映射成为一个随机数字，然后存在这张超大的位图中，将对应的位上的值由0改成1就可以了。这样我们就能知道这个这个事情是否发生过。

上图中，用户A看了视频B，hash后的值是5，那么第5位的值就变成1了。如果我们想判断用户A是否看了视频B，只要看看第5位是不是1就可以了。

但是hash有个问题，当数据量超大的时候，就有可能会重复（碰撞）。幸好布隆早就想到了，他是这么解决的：

多hash几次就好了，这样就能就大大降低了重复（碰撞）的问题。总不可能连续好几次hash都是一样的结果吧？

视频推荐过滤器

原理有了，那么就可以开始设计了。

这里我们可以看到，有两个实体：用户和视频。简单组合一下，就有三种方法：

1、给每个用户建一个看过视频的布隆过滤器，推荐系统推送的内容使用布隆过滤器过滤一下，把不在列表里的让客户可见即可；

2、给每个视频建一个观看列表的布隆过滤器，推荐系统给用户推送的时候使用布隆过滤器过滤一下，不在列表里的才能推送即可；

3、建一个大的布隆过滤器，把每个用户的观看记录都放在这个过滤器中，推荐系统给用户推送的时候到大布隆过滤器中过滤一下，不在列表里的才能推送。

以上三种方法都可以，我也不太清楚抖音用的是那种方法，我猜是第一种，因为视频总比用户多，而一个大布隆过滤器的话，又太大了。

布隆过滤器的优化

不过即便是每个用户一个布隆过滤器，数据量还是太大了。任何事情都会引发量变引起质变的问题。所以布隆过滤器误判的问题仍然是存在的。比如：

用户A看视频B，3次hash散列结果是2、5、6；用户A看视频D，3次hash散列结果是5、7、8；用户A看视频F，3次hash散列结果是1、9、3；

这时候，位图中的1、2、3、5、7、8、9都被打上1了。

而我们需要询问布隆过滤器用户A是否看过视频H的时候就出现了：

用户A看视频H，3次hash散列结果是3、8、9，

布隆过滤器里3、8、9的结果内容里已经被打上1了，也就是说布隆过滤器告诉我

们，这个视频已经被看过了（实际上并没有看）。那我们怎么解决这个问题呢？

简单的两招：

1、增加位图的位数（或者减少原始数据量）；

2、适当增加hash次数；

布隆大大早就给我们算好了，最佳的原始数据和位图位数比是1:20，经过8次hash，误判率会在千分之一左右。如果把hash次数提高，误判率会更低。

不过，我们的应用是要知道这个用户没看过的，那就不用咋优化了。因为布隆过滤器告诉我们看过，可能是误判，但是如果告诉我们没看过，那就肯定是没看过。

Tags：抖音点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

视频号，从抖音挖来一个“一姐”？

文｜王亚琪编辑｜斯问“你说你要尊严，一个月5000块钱的合同工资，能体现你的尊严吗？”“我那么多的人脉和资源，你如果够聪明的话，你踩着我肩膀往上爬不是更快吗？你拿着我每个月收来的房...【详细内容】

2024-04-09　　Search: 抖音点击:(4)　　评论:(0)　　加入收藏

入驻拼多多，东方甄选为何非要“叛”出抖音？

文|闻旅老默编辑|李怡东方甄选的反骨DNA又动了。近期东方甄选悄悄入驻拼多多，开出了“东方甄选旗舰店”。目前已上架百余件商品，以生鲜、零食特产、饮料冲饮等食品类产品为主...【详细内容】

2024-04-09　　Search: 抖音点击:(2)　　评论:(0)　　加入收藏

东方甄选公布自营品两周年“战绩”：抖音销量近1亿单自营品总数超400款

上证报中国证券网讯（记者夏子航）4月9日，东方甄选公布了自营品两周年“战绩”：抖音销量近1亿单，自营品总数超400款，单月新品超60款。据介绍，自从2022年4月推出第一款自营产品后，在过...【详细内容】

2024-04-09　　Search: 抖音点击:(2)　　评论:(0)　　加入收藏

电商，抖音、TikTok共同的“下一站”？

如果要为抖音的2024找出一个关键词，电商或许能够“遥遥领先”。3月28日，北京商报记者从知情人士处获悉，抖音电商副总裁木青即将转职TikTok电商。此前不久，抖音电商刚刚推出了名...【详细内容】

2024-03-29　　Search: 抖音点击:(13)　　评论:(0)　　加入收藏

抖音电商走向「独立」：货架电商全面GMV将达万亿元

出品 / 新浪科技（ID:techsina）作者 / 徐苑蕾在后直播电商时代，抖音又开始觊觎淘宝、京东的根基——货架电商。近日，抖音悄悄上线了一款名为“抖音商城版”的App，这是在...【详细内容】

2024-03-27　　Search: 抖音点击:(11)　　评论:(0)　　加入收藏

抖音进攻货架电商：“抄袭”淘宝，超越淘宝？

文 | 新浪科技徐苑蕾在后直播电商时代，抖音又开始觊觎淘宝、京东的根基——货架电商。近日，抖音悄悄上线了一款名为“抖音商城版”的App，这是在抖音App外首次推出电...【详细内容】

2024-03-27　　Search: 抖音点击:(13)　　评论:(0)　　加入收藏

抖音电商推出独立APP“抖音商城版”，主攻货架场景

图片来源：视觉中国近日，抖音电商近日推出了独立的“抖音商城版”APP。对此，抖音电商相关负责人向蓝鲸财经表示：“我们观察到部分用户在主动购物方面存在着旺盛的需求，为了更好地...【详细内容】

2024-03-26　　Search: 抖音点击:(10)　　评论:(0)　　加入收藏

那些梦想在抖音做大的游戏主播，不知不觉成为了养料

文 | 游戏价值论01说个趣事。前几天，有一个斗鱼的王者荣耀主播在合约期满后，转到了抖音开启直播。在抖音开启直播后，该主播在抖音的直播间大吐苦水，称斗鱼平台的观众很少，抽象的...【详细内容】

2024-03-26　　Search: 抖音点击:(10)　　评论:(0)　　加入收藏

抖音电商首次走出抖音，上线抖音商城版APP

3月26日消息，近日，字节上线了一款名为“抖音商城版”的APP，主打“超值好物省心选”，意在与淘宝、京东、拼多多等竞争。这也是抖音电商首次在抖音APP之外，推出综合性独立电商平台...【详细内容】

2024-03-26　　Search: 抖音点击:(8)　　评论:(0)　　加入收藏

抖音视频出现恶意内容如何代举报用户可以尝试这几个方法

抖音视频下架通常是因为该视频违反了抖音平台的规定和政策。这些规定和政策是为了保护用户免受不良内容的影响，同时维护平台的声誉和秩序。如果视频内容包含低俗、暴力、恶意...【详细内容】

2024-03-26　　Search: 抖音点击:(11)　　评论:(0)　　加入收藏

▌简易百科推荐

TikTok入驻条件

在过去的一年里，Tik Tok在全球的市场表现扩张迅速大家有目共睹，更是做到了多名地区app排行榜第一名，下载量、月活量、日活量更是高居榜首。用户基数多，流量大，下载量超过45亿，日活...【详细内容】

2024-04-11　　烫根豌豆尖儿　　　　Tags:TikTok 　点击:(3)　　评论:(0)　　加入收藏

tiktok优质视频判断标准，tiktok怎么样发布视频流量高

课兴兴资源圈创始人分享过很多这类玩法，如果你看完不过瘾，欢迎关注课兴兴，后续为你分享更多干货！TikTok优质视频的判断标准主要包括以下几个方面：1.内容质量：视频内容需要有趣、有...【详细内容】

2024-04-09　　　　课兴兴资源圈　　Tags:tiktok 　点击:(5)　　评论:(0)　　加入收藏

揭秘TikTok达人带货门槛：如何突破市场挑战？

在当今数字化时代，TikTok已成为许多人实现个人品牌建设和商业营销的重要平台。随着短视频带货概念的兴起，越来越多的TikTok达人开始涉足带货领域，但要想在这个竞争激烈的市场中...【详细内容】

2024-04-03　　卧兔品牌出海　　　　Tags:TikTok 　点击:(2)　　评论:(0)　　加入收藏

TikTok账号被封是为什么？如何防止封号？

多人在使用TikTok的过程中都会遇到一些问题，比如为什么TikTok没有浏览量？事实上，这很可能是因为你的账号已被禁止。但为什么它会被封呢？你怎样才能解决它？一、TikTok账号为什么被...【详细内容】

2024-04-02　　Balen跨境说　　　　Tags:TikTok 　点击:(4)　　评论:(0)　　加入收藏

TikTok娱乐直播：现在入局的黄金策略

在当前的数字营销环境中，Tiktok 提供了一个尚未被充分利用的广阔平台。尽管市场已涌现出众多电商参与者，但可利用的流量潜力远未达到饱和。这一现象主要归因于海外市场的庞大...【详细内容】

2024-03-27　　重生之tiktok　　　　Tags:TikTok 　点击:(8)　　评论:(0)　　加入收藏

抖音电商走向「独立」：货架电商全面GMV将达万亿元

2024-03-27　　　　新浪科技　　Tags:抖音电商　点击:(11)　　评论:(0)　　加入收藏

抖音进攻货架电商：“抄袭”淘宝，超越淘宝？

2024-03-27　　　　新浪科技　　Tags:抖音　点击:(13)　　评论:(0)　　加入收藏

抖音电商推出独立APP“抖音商城版”，主攻货架场景

2024-03-26　　　　蓝鲸财经　　Tags:抖音电商　点击:(10)　　评论:(0)　　加入收藏

抖音电商首次走出抖音，上线抖音商城版APP

2024-03-26　　　　金融界　　Tags:抖音电商　点击:(8)　　评论:(0)　　加入收藏

抖音视频出现恶意内容如何代举报用户可以尝试这几个方法

2024-03-26　　阅文知天下　　　　Tags:抖音视频　点击:(11)　　评论:(0)　　加入收藏

推荐资讯

Rust编程语言的内存安	数字人破解跨境直播难
Meta确认5月发布Llama	ChatGPT 应用商店？可能
社交网络与Web3：数字社	速查微信聊天最频繁对
女人在微信上给你发这	Qt与Flutter：在跨平台U

站内最新

栏目相关

· TikTok入驻条件

· tiktok优质视频判断标准，tiktok怎么样发布视频流量高

· 揭秘TikTok达人带货门槛：如何突破市场挑战？

· TikTok账号被封是为什么？如何防止封号？

· TikTok娱乐直播：现在入局的黄金策略

· 抖音电商走向「独立」：货架电商全面GMV将达万亿元

· 抖音进攻货架电商：“抄袭”淘宝，超越淘宝？

· 抖音电商推出独立APP“抖音商城版”，主攻货架场景

· 抖音电商首次走出抖音，上线抖音商城版APP

· 抖音视频出现恶意内容如何代举报用户可以尝试这几个方法

· 企业遇到抖音负面舆情视频用户应该怎么快速解决

· 抖音小圆码自动回复怎么做?抖音小圆码怎么使用？

· 抖音私信小卡片是什么？抖音私信卡片可以跳转微信吗？

· 抖音开展厚黑学伪成功学治理

· 跨境电商TikTok攻略：利用创意短视频触动全球观众

· tiktok正确认识养号和打标签，tiktok原创带货短视频拍摄技巧

· 抖音如何快速涨粉？

· 2024抖音如何快速涨粉？

· 抖音本地生活：用内容创造更多消费

· 抖音再战社交：重启多闪、上线话炉，靠AI打翻身仗？

站内热门