您当前的位置:首页 > 手机百科 > 抖音/TikTok

为什么抖音从来没有重复内容?无关数据库,背后的算法有大学问

时间:2022-08-22 12:29:05  来源:网易  作者:互联网资讯看板

你在刷抖音的时候,有没有发现,抖音从来不会给你推送相同内容的视频?你可能会想,这有啥难的,给每个人都存一个记录,以后推送的时候避开就好了呀。nononono!可没有这么简单啊!

海量用户的重复内容过滤

这是一个非常严肃的问题。在互联网领域,重复推送是一件非常影响用户体验的行为。一旦出现重复内容,会大大增加用户跳出的几率。

搞数据库的同学会说:这还不简单?反正有用户日志,我们给每个人都存一个访问日志表,推送之前exists一下就好了。

怎么说呢,如果用户量只有你们公司几百号人,这个方案是没问题的。但是抖音、快手动辄几亿人,每天都刷,这得存多少份log??每一个用户的log有多大?每一个推送都要从这个大log里exists一下,得耗多少时间?

等你exists一下,用户早就跑了好么?所以在抖音、快手动辄几亿日活,每人每天最少看几百个短视频的情况,如何快速推送不重复的内容是非常困难的事情。

高速过滤的秘密武器

需求:几亿个用户,每个用户有1~几万(甚至更多)个已看记录,快速判断下一个推送给用户的视频是否已经看过。

解决方案1-表级处理:每个用户一张表,存视频id,推荐之后,展示之前,过滤一下。这个表太多,表里的数据也太多,过滤效率太慢了。信息得进一步压缩,速度要再快点才行。

解决方案2-图计算:把每个用户与每个视频发生的关系都存到图数据库。推荐的时候直接通过关系过滤掉。这个虽然不用建N张表,只是存用户和视频的关系就行了。但是用过图数据库的人就知道,节点太多了,计算效果也是非常的慢。不行,信息还得进一步压缩。还能咋压缩啊?

解决方案3-位图:把所有用户当天是否登录的信息映射到一张位图中,这样我们就能迅速通过某个位是0还是1快速判定这个用户当天是否登录过系统。

假如说我们同样使用位图,把每个用户是否看过这个视频映射到位图中,是不是就可以通过某个位是0还是1快速判定这个用户是否看过这个视频呢?哆啦A梦告诉我们:可以!而且有更完善的方法--布隆过滤器!

布隆过滤器:1970年由布隆提出的一种方法,由随机映射函数和二进制向量组成,可以快速检索一个元素是否在一个集合中。

如布隆过滤器的描述,其实就是随机映射函数(hash散列)+二进制向量(位图)组成的。我们把任意需要存储的内容,经过hash散列映射成为一个随机数字,然后存在这张超大的位图中,将对应的位上的值由0改成1就可以了。这样我们就能知道这个这个事情是否发生过。

上图中,用户A看了视频B,hash后的值是5,那么第5位的值就变成1了。如果我们想判断用户A是否看了视频B,只要看看第5位是不是1就可以了。

但是hash有个问题,当数据量超大的时候,就有可能会重复(碰撞)。幸好布隆早就想到了,他是这么解决的:

多hash几次就好了,这样就能就大大降低了重复(碰撞)的问题。总不可能连续好几次hash都是一样的结果吧?

视频推荐过滤器

原理有了,那么就可以开始设计了。

这里我们可以看到,有两个实体:用户和视频。简单组合一下,就有三种方法:

1、给每个用户建一个看过视频的布隆过滤器,推荐系统推送的内容使用布隆过滤器过滤一下,把不在列表里的让客户可见即可;

2、给每个视频建一个观看列表的布隆过滤器,推荐系统给用户推送的时候使用布隆过滤器过滤一下,不在列表里的才能推送即可;

3、建一个大的布隆过滤器,把每个用户的观看记录都放在这个过滤器中,推荐系统给用户推送的时候到大布隆过滤器中过滤一下,不在列表里的才能推送。

以上三种方法都可以,我也不太清楚抖音用的是那种方法,我猜是第一种,因为视频总比用户多,而一个大布隆过滤器的话,又太大了。

布隆过滤器的优化

不过即便是每个用户一个布隆过滤器,数据量还是太大了。任何事情都会引发量变引起质变的问题。所以布隆过滤器误判的问题仍然是存在的。比如:

用户A看视频B,3次hash散列结果是2、5、6;用户A看视频D,3次hash散列结果是5、7、8;用户A看视频F,3次hash散列结果是1、9、3;

这时候,位图中的1、2、3、5、7、8、9都被打上1了。

而我们需要询问布隆过滤器用户A是否看过视频H的时候就出现了:

用户A看视频H,3次hash散列结果是3、8、9,

布隆过滤器里3、8、9的结果内容里已经被打上1了,也就是说布隆过滤器告诉我

们,这个视频已经被看过了(实际上并没有看)。那我们怎么解决这个问题呢?

简单的两招:

1、增加位图的位数(或者减少原始数据量);

2、适当增加hash次数;

布隆大大早就给我们算好了,最佳的原始数据和位图位数比是1:20,经过8次hash,误判率会在千分之一左右。如果把hash次数提高,误判率会更低。

不过,我们的应用是要知道这个用户没看过的,那就不用咋优化了。因为布隆过滤器告诉我们看过,可能是误判,但是如果告诉我们没看过,那就肯定是没看过。



Tags:抖音   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
视频号,从抖音挖来一个“一姐”?
文|王亚琪编辑|斯问“你说你要尊严,一个月5000块钱的合同工资,能体现你的尊严吗?”“我那么多的人脉和资源,你如果够聪明的话,你踩着我肩膀往上爬不是更快吗?你拿着我每个月收来的房...【详细内容】
2024-04-09  Search: 抖音  点击:(4)  评论:(0)  加入收藏
入驻拼多多,东方甄选为何非要“叛”出抖音?
文|闻旅 老默编辑|李怡东方甄选的反骨DNA又动了。近期东方甄选悄悄入驻拼多多,开出了“东方甄选旗舰店”。目前已上架百余件商品,以生鲜、零食特产、饮料冲饮等食品类产品为主...【详细内容】
2024-04-09  Search: 抖音  点击:(2)  评论:(0)  加入收藏
东方甄选公布自营品两周年“战绩”:抖音销量近1亿单 自营品总数超400款
上证报中国证券网讯(记者 夏子航)4月9日,东方甄选公布了自营品两周年“战绩”:抖音销量近1亿单,自营品总数超400款,单月新品超60款。据介绍,自从2022年4月推出第一款自营产品后,在过...【详细内容】
2024-04-09  Search: 抖音  点击:(2)  评论:(0)  加入收藏
电商,抖音、TikTok共同的“下一站”?
如果要为抖音的2024找出一个关键词,电商或许能够“遥遥领先”。3月28日,北京商报记者从知情人士处获悉,抖音电商副总裁木青即将转职TikTok电商。此前不久,抖音电商刚刚推出了名...【详细内容】
2024-03-29  Search: 抖音  点击:(13)  评论:(0)  加入收藏
抖音电商走向「独立」:货架电商全面GMV将达万亿元
出品 / 新浪科技(ID:techsina)作者 / 徐苑蕾在后直播电商时代,抖音又开始觊觎淘宝、京东的根基——货架电商。近日,抖音悄悄上线了一款名为“抖音商城版”的App,这是在...【详细内容】
2024-03-27  Search: 抖音  点击:(11)  评论:(0)  加入收藏
抖音进攻货架电商:“抄袭”淘宝,超越淘宝?
文 | 新浪科技 徐苑蕾在后直播电商时代,抖音又开始觊觎淘宝、京东的根基——货架电商。近日,抖音悄悄上线了一款名为“抖音商城版”的App,这是在抖音App外首次推出电...【详细内容】
2024-03-27  Search: 抖音  点击:(13)  评论:(0)  加入收藏
抖音电商推出独立APP“抖音商城版”,主攻货架场景
图片来源:视觉中国近日,抖音电商近日推出了独立的“抖音商城版”APP。对此,抖音电商相关负责人向蓝鲸财经表示:“我们观察到部分用户在主动购物方面存在着旺盛的需求,为了更好地...【详细内容】
2024-03-26  Search: 抖音  点击:(10)  评论:(0)  加入收藏
那些梦想在抖音做大的游戏主播,不知不觉成为了养料
文 | 游戏价值论01说个趣事。前几天,有一个斗鱼的王者荣耀主播在合约期满后,转到了抖音开启直播。在抖音开启直播后,该主播在抖音的直播间大吐苦水,称斗鱼平台的观众很少,抽象的...【详细内容】
2024-03-26  Search: 抖音  点击:(10)  评论:(0)  加入收藏
抖音电商首次走出抖音,上线抖音商城版APP
3月26日消息,近日,字节上线了一款名为“抖音商城版”的APP,主打“超值好物省心选”,意在与淘宝、京东、拼多多等竞争。这也是抖音电商首次在抖音APP之外,推出综合性独立电商平台...【详细内容】
2024-03-26  Search: 抖音  点击:(8)  评论:(0)  加入收藏
抖音视频出现恶意内容如何代举报 用户可以尝试这几个方法
抖音视频下架通常是因为该视频违反了抖音平台的规定和政策。这些规定和政策是为了保护用户免受不良内容的影响,同时维护平台的声誉和秩序。如果视频内容包含低俗、暴力、恶意...【详细内容】
2024-03-26  Search: 抖音  点击:(11)  评论:(0)  加入收藏
▌简易百科推荐
TikTok入驻条件
在过去的一年里,Tik Tok在全球的市场表现扩张迅速大家有目共睹,更是做到了多名地区app排行榜第一名,下载量、月活量、日活量更是高居榜首。用户基数多,流量大,下载量超过45亿,日活...【详细内容】
2024-04-11  烫根豌豆尖儿    Tags:TikTok   点击:(3)  评论:(0)  加入收藏
tiktok优质视频判断标准,tiktok怎么样发布视频流量高
课兴兴资源圈创始人分享过很多这类玩法,如果你看完不过瘾,欢迎关注课兴兴,后续为你分享更多干货!TikTok优质视频的判断标准主要包括以下几个方面:1.内容质量:视频内容需要有趣、有...【详细内容】
2024-04-09    课兴兴资源圈  Tags:tiktok   点击:(5)  评论:(0)  加入收藏
揭秘TikTok达人带货门槛:如何突破市场挑战?
在当今数字化时代,TikTok已成为许多人实现个人品牌建设和商业营销的重要平台。随着短视频带货概念的兴起,越来越多的TikTok达人开始涉足带货领域,但要想在这个竞争激烈的市场中...【详细内容】
2024-04-03  卧兔品牌出海    Tags:TikTok   点击:(2)  评论:(0)  加入收藏
TikTok账号被封是为什么?如何防止封号?
多人在使用TikTok的过程中都会遇到一些问题,比如为什么TikTok没有浏览量?事实上,这很可能是因为你的账号已被禁止。但为什么它会被封呢?你怎样才能解决它?一、TikTok账号为什么被...【详细内容】
2024-04-02  Balen跨境说    Tags:TikTok   点击:(4)  评论:(0)  加入收藏
TikTok娱乐直播:现在入局的黄金策略
在当前的数字营销环境中,Tiktok 提供了一个尚未被充分利用的广阔平台。尽管市场已涌现出众多电商参与者,但可利用的流量潜力远未达到饱和。这一现象主要归因于海外市场的庞大...【详细内容】
2024-03-27  重生之tiktok    Tags:TikTok   点击:(8)  评论:(0)  加入收藏
抖音电商走向「独立」:货架电商全面GMV将达万亿元
出品 / 新浪科技(ID:techsina)作者 / 徐苑蕾在后直播电商时代,抖音又开始觊觎淘宝、京东的根基——货架电商。近日,抖音悄悄上线了一款名为“抖音商城版”的App,这是在...【详细内容】
2024-03-27    新浪科技  Tags:抖音电商   点击:(11)  评论:(0)  加入收藏
抖音进攻货架电商:“抄袭”淘宝,超越淘宝?
文 | 新浪科技 徐苑蕾在后直播电商时代,抖音又开始觊觎淘宝、京东的根基——货架电商。近日,抖音悄悄上线了一款名为“抖音商城版”的App,这是在抖音App外首次推出电...【详细内容】
2024-03-27    新浪科技  Tags:抖音   点击:(13)  评论:(0)  加入收藏
抖音电商推出独立APP“抖音商城版”,主攻货架场景
图片来源:视觉中国近日,抖音电商近日推出了独立的“抖音商城版”APP。对此,抖音电商相关负责人向蓝鲸财经表示:“我们观察到部分用户在主动购物方面存在着旺盛的需求,为了更好地...【详细内容】
2024-03-26    蓝鲸财经  Tags:抖音电商   点击:(10)  评论:(0)  加入收藏
抖音电商首次走出抖音,上线抖音商城版APP
3月26日消息,近日,字节上线了一款名为“抖音商城版”的APP,主打“超值好物省心选”,意在与淘宝、京东、拼多多等竞争。这也是抖音电商首次在抖音APP之外,推出综合性独立电商平台...【详细内容】
2024-03-26    金融界  Tags:抖音电商   点击:(8)  评论:(0)  加入收藏
抖音视频出现恶意内容如何代举报 用户可以尝试这几个方法
抖音视频下架通常是因为该视频违反了抖音平台的规定和政策。这些规定和政策是为了保护用户免受不良内容的影响,同时维护平台的声誉和秩序。如果视频内容包含低俗、暴力、恶意...【详细内容】
2024-03-26  阅文知天下    Tags:抖音视频   点击:(11)  评论:(0)  加入收藏
站内最新
站内热门
站内头条