您当前的位置：首页 > 电脑百科 > 程序开发 > 编程百科

如何设计一个微博feed流

时间：2023-02-02 15:31:21 来源：作者： IT架构师联盟

+ 加入收藏

官方网站 www.itilzj.com 文档资料: wenku.itilzj.com

一. 背景

微博，微信朋友圈，抖音等都是典型的feed流产品，也就是我们的浏览内容都是由他人发的feed组成。

本篇文章尝试进行微博feed流的设计解析，如有问题欢迎大家指正。

二. 如何设计一个微博feed流

1. 存储设计

在数据存储上主要分三个部分

1）feed存储

是用户发布的内容存储，这部分内容需要永久存储，用户在查看个人主页的时候不论多久的都要可以看到

数据结构简化如下，根据userId进行水平分表

create table `t_feed`(`feedId` bigint not null PRIMARY KEY,`userId` bigint not null COMMENT '创建人ID'`content` text,`recordStatus` tinyint not null default 0 comment '记录状态')ENGINE=InnoDB;

2）关注关系存储

是用户之间关系的一个存储，也是控制用户能够看到feed范围的依赖，同样需要永久存储。

数据结构简化如下（待优化）根据userId进行水平分表：

CREATE TABLE `t_like`(`id` int(11) NOT NULL PRIMARY KEY,`userId` int(11) NOT NULL,`likerId` int(11) NOT NULL,KEY `userId` (`userId`),KEY `userId` (`likerId`),)ENGINE=InnoDB;

3）feed同步存储

用于feed流展示，可以理解为是一个收件箱，关注的人发布了feed，就要向其中投递。

可以根据业务场景保存一段时间内的内容，冷的数据可以进行归档也可以直接删除。

数据结构简化如下，根据userId进行水平分表：

create table `t_inbox`(`id` bigint not null PRIMARY KEY,`userId` bigint not null comment '收件人ID',`feedId` bigint not null comment '内容ID',`createTime` datetime not null)ENGINE=InnoDB;

2. 场景特点1）读多写少

读写比例差距巨大，典型的读多写少场景。

2）有序展示

需要根据timeline或者feed的打分值来进行排序处理展示。

3. 使用推模式实现

推模式也称写扩散模式，当被关注人发布内容后，主动将内容推送给关注，写入关注人的收件箱中。

1）方案

当被关注人发布一条内容以后，获取所有关注该人的用户，然后进行遍历数据，将内容插入这些用户的收件箱中，示例如下：

/** 插入一条feed数据 **/insert into t_feed (`feedId`,`userId`,`content`,`createTime`) values (10001,4,'内容','2021-10-31 17:00:00');
/** 查询所有粉丝 **/select userId from t_like where liker = 4;
/** 将feed插入粉丝的收件箱中 **/insert into t_inbox (`userId`,`feedId`,`createTime`) values (1,10001,'2021-10-31 17:00:00');insert into t_inbox (`userId`,`feedId`,`createTime`) values (2,10001,'2021-10-31 17:00:00');insert into t_inbox (`userId`,`feedId`,`createTime`) values (3,10001,'2021-10-31 17:00:00');

2、当用户ID为1的用户进行查看feed流时，就将收件箱表中的所有数据进行查出，示例如下：

select feedId from t_inbox where userId = 1 ;

3、对数据进行聚合排序处理

2）存在的问题1. 即时性较差

当大V被很多很多用户关注的时候，遍历进行粉丝进行插入数据非常耗时，用户不能及时收到内容

可尝试的解决方法：

1. 可将任务推入消息队列中，消费端多线程并行消费。2. 使用插入性能高、数据压缩率高的数据库

2. 存储成本很高

每个粉丝都要存储一份关注人的微博数据，大V粉丝量很高的时候，插入数据量成指数级上升。

并且微博可以将关注的博主进行分组，所以数据不仅要在全部收件箱中插入，也要在分组的收件箱中插入。

可尝试的解决方法：

数据冷热分离，热库仅保存短时间内的数据，冷库多保留一段时间的数据，冷热库均定时清理数据。

用户量不断上涨，使用这种设计方案，终究还是会遇到瓶颈

3. 数据状态同步

当被关注用户删除微博或取关某博主时，需要将所有粉丝的收件箱中的内容都删除，依然存在一个写扩散的即时性问题

可尝试的解决方案：

在拉取数据的时候对微博的状态进行判断，过滤已删除/已取关的微博过滤

以上解决方案可以在一定程度上提升效率，但是不能根源上解决问题。

3）小结

推模式仅适用于粉丝量不会太多的情况，例如微信朋友圈，这样能够比较好的控制好即时触达性、以及数据存储的成本。

对于微博大V这种粉丝量很大的场景并不适合。

4. 使用拉模式

拉模式也称读扩散模式，当我们使用拉数据的方式后，用户获取数据流程如下：

获取所有关注的博主ID。

select liker from t_like where userId = 1;

2. 根据博主ID进行内容拉取。

select * from t_feed where userId in (4,5,6) and recordStatus = 0;

获取所有内容后根据timeline进行排序。

这样的方案解决了在推模式下存在的三个问题，但是却也引发了另外的性能问题。

假如，用户关注的博主非常多，要拉取所有内容并进行排序聚合，这样的操作必定会耗时很多，请求时延很高。

那么如何做到低耗时，完成快速响应呢？

单纯依靠数据库是无法达到要求的，所以我们要在中间引入缓存层（分片），通过缓存来降低磁盘IO。

1）流程为：

关注列表缓存

将用户关注的所有博主ID存入缓存中。以用户ID为key，value为关注博主id集合

微博内容缓存

以博主ID为key，value为微博内容集合。博主发布微博后，将微博内容存入集合中

获取feed流时

根据关注的博主id集合，在所有缓存分片节点上拉取所有内容并进行排序聚合。

假如缓存分片集群为三主三从，也就是一共需要三次请求即可拉取到所有内容，然后进行时间倒排，响应给用户

2）存在的问题

系统的读压力很大

假如用户关注了1000个博主，那么需要拉取这1000个博主的所有发布内容，进行排序聚合，对于缓存服务，以及带宽压力都很大。

可尝试的解决方案:

缓存节点一主多从，通过水平扩容，来分散读压力和带宽瓶颈

3）小结

对于大V用户，拉模式能够很好解决写扩散存在的问题，同时也会带来上述存在的问题。

三. 总结

分析完推模式和拉模式的优缺点，我们很容易发现

推模式适合于粉丝量不大的场景。例如朋友圈，一对一聊天。
拉模式适合粉丝量巨大的大V用户。例如微博大V。

所以在场景设计时，可以将推模式和拉模式结合使用。逻辑如下

设定一个大V粉丝量阈值，达到阈值后触发打用户标签事件。
对于未达到阈值的用户依然使用写扩散方式，这样冗余的数据量不会太大，也不存在即时性问题。
当达到阈值的用户发微博的时候，将微博内容存入缓存（热数据），不进行写扩散，而是粉丝拉取数据与收件箱中的数据进行排序聚合。

PS：这里还可以通过用户行为去维护一个活跃粉丝列表，对于该列表中的粉丝，同样进行一个写扩散的行为，保证即时触达。

IT架构师/技术大咖的交流圈子,为您提供架构体系知识、技术文章、流行实践案例、解决方案等，行业大咖分享交流/同行经验分享互动,期待你的加入!扫码即可加入哦，随着材料不断增多社群会不定期涨价早加入更优惠

Tags：feed流点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

抖音feed流广告与信息流广告区别有哪些？

抖音feed直播间是将直播间引流到抖音推荐页，抖音feed直播间同时也是信息流广告的一种，而信息流广告可以支持推广目的比较多，下面就具体来介绍抖音feed直播间介绍以及与信息流广...【详细内容】

2023-04-10　　Search: feed流点击:(191)　　评论:(0)　　加入收藏

如何设计一个微博feed流

官方网站 www.itilzj.com 文档资料: wenku.itilzj.com一. 背景微博，微信朋友圈，抖音等都是典型的feed流产品，也就是我们的浏览内容都是由他人发的feed组成。本篇文章尝试进行微...【详细内容】

2023-02-02　　Search: feed流点击:(195)　　评论:(0)　　加入收藏

巨量千川取代抖音dou＋与feed流投放后究竟怎么玩？（附教程）

4月8日，抖音电商总裁康泽首次阐释了“兴趣电商”概念，并以此为整个抖音电商定调。次日，巨量千川全量开放服务商招募。自巨量千川上线以来，关于它的讨论便不绝于耳，有用户表示，千川...【详细内容】

2021-04-16　　Search: feed流点击:(430)　　评论:(0)　　加入收藏

抖音投放，选FEED流还是DOU+？纯干货

5月，巨量引擎推出FEED直投直播间产品。随着抖音直播的火爆，FEED直投直播间的玩法被炒得火热，各类收费课程雨后春笋般不断涌现，那些曾经靠“豆荚”类课程赚的盆满钵满的机构们，立...【详细内容】

2020-10-15　　Search: feed流点击:(320)　　评论:(0)　　加入收藏

▌简易百科推荐

Netflix 是如何管理 2.38 亿会员的

作者 | Surabhi Diwan译者 | 明知山策划 | TinaNetflix 高级软件工程师 Surabhi Diwan 在 2023 年旧金山 QCon 大会上发表了题为管理 Netflix 的 2.38 亿会员的演讲。她在...【详细内容】

2024-04-08　　　　InfoQ　　Tags:Netflix 　点击:(3)　　评论:(0)　　加入收藏

即将过时的 5 种软件开发技能！

作者 | Eran Yahav编译 | 言征出品 | 51CTO技术栈（微信号：blog51cto）时至今日，AI编码工具已经进化到足够强大了吗？这未必好回答，但从2023 年 Stack Overflow 上的调查数据来看，44%...【详细内容】

2024-04-03　　　　51CTO　　Tags:软件开发　点击:(8)　　评论:(0)　　加入收藏

跳转链接代码怎么写？

在网页开发中，跳转链接是一项常见的功能。然而，对于非技术人员来说，编写跳转链接代码可能会显得有些困难。不用担心！我们可以借助外链平台来简化操作，即使没有编程经验，也能轻松实...【详细内容】

2024-03-27　　蓝色天纪　　　　Tags:跳转链接　点击:(15)　　评论:(0)　　加入收藏

中台亡了，问题到底出在哪里？

曾几何时，中台一度被当做“变革灵药”，嫁接在“前台作战单元”和“后台资源部门”之间，实现企业各业务线的“打通”和全域业务能力集成，提高开发和服务效率。但在中台如火如荼之...【详细内容】

2024-03-27　　dbaplus社群　　　　Tags:中台　点击:(11)　　评论:(0)　　加入收藏

员工写了个比删库更可怕的Bug！

想必大家都听说过删库跑路吧，我之前一直把它当一个段子来看。可万万没想到，就在昨天，我们公司的某位员工，竟然写了一个比删库更可怕的 Bug！给大家分享一下（不是公开处刑），希望朋友们...【详细内容】

2024-03-26　　dbaplus社群　　　　Tags:Bug 　点击:(8)　　评论:(0)　　加入收藏

我们一起聊聊什么是正向代理和反向代理

从字面意思上看，代理就是代替处理的意思，一个对象有能力代替另一个对象处理某一件事。代理，这个词在我们的日常生活中也不陌生，比如在购物、旅游等场景中，我们经常会委托别人代替...【详细内容】

2024-03-26　　萤火架构　　微信公众号　　Tags:正向代理　点击:(14)　　评论:(0)　　加入收藏

看一遍就理解：IO模型详解

前言大家好，我是程序员田螺。今天我们一起来学习IO模型。在本文开始前呢，先问问大家几个问题哈~什么是IO呢？什么是阻塞非阻塞IO？什么是同步异步IO？什么是IO多路复用？select/epoll...【详细内容】

2024-03-26　　捡田螺的小男孩　　微信公众号　　Tags:IO模型　点击:(10)　　评论:(0)　　加入收藏

为什么都说 HashMap 是线程不安全的？

做Java开发的人，应该都用过 HashMap 这种集合。今天就和大家来聊聊，为什么 HashMap 是线程不安全的。1.HashMap 数据结构简单来说，HashMap 基于哈希表实现。它使用键的哈希码来...【详细内容】

2024-03-22　　Java技术指北　　微信公众号　　Tags:HashMap 　点击:(12)　　评论:(0)　　加入收藏

如何从头开始编写LoRA代码，这有一份教程

选自 lightning.ai作者：Sebastian Raschka机器之心编译编辑：陈萍作者表示：在各种有效的 LLM 微调方法中，LoRA 仍然是他的首选。LoRA（Low-Rank Adaptation）作为一种用于微调 LLM（大...【详细内容】

2024-03-21　　机器之心Pro　　　　Tags:LoRA 　点击:(13)　　评论:(0)　　加入收藏

这样搭建日志中心，传统的ELK就扔了吧！

最近客户有个新需求，就是想查看网站的访问情况。由于网站没有做google的统计和百度的统计，所以访问情况，只能通过日志查看，通过脚本的形式给客户导出也不太实际，给客户写个简单的...【详细内容】

2024-03-20　　dbaplus社群　　　　Tags:日志　点击:(6)　　评论:(0)　　加入收藏

推荐资讯

多期限美债收益率快速	王健林停不下卖资产步
3年花600万美刀和儿	放弃百万年薪，大厂人跳
一季报亮点多多，这些公	上市公司2023年年报
Google成了“AI界汪峰	重磅！最严退市新规来了