关于自动限流的思考

时间：2023-08-03 13:36:35 来源：作者：京东云开发者

目标

保证系统不因流量过载而挂。

现状：人工限流

正常的微服务限流工具都需要人工配置：支持应用负责人事先配置限流规则（接口+调用方+限流阈值），流量在阈值以下可以正常响应，超过阈值的流量会快速失败。这种方案存在如下问题：

问题1. 接口多，无法全面覆盖

要想保证系统不因流量过载而挂，那就需要对所有中高频接口进行流量管控，不然任意接口的流量上升都可能成为“压倒骆驼的最后一根稻草”。假设存在a个应用，按每个应用平均b个中高频接口, 每个接口对应c个调用方，限流规则配置那数量为(axbxc)，稍微有点规模的部门这个数量就能上万, 要想全面覆盖靠人工基本不可行。

问题2.限流阈值无法准确评估

当前限流阈值评估主要有2类：

历史流量峰值：比如近7天系统正常提供服务的流量峰值。但是这个值偏低，容易产生误杀。
压测：通过压测演练得出接口的容量上限。但是压测的方式很难模拟真实的线上环境，无论是数据质量，流量的参数质量，依赖方的性能，亦或同应用内不同接口的流量分布都很难与真实环境保持一致。

问题3. 限流阈值无法长期有效

限流阈值会随着环境的变化而变化。例如流程中新增了一个依赖、或者数据库的数据量增多、热点数据增多、其他接口流量上升占用了更多系统资源、底层的基础设施发生变化等都会导致真实容量降低，限流阈值失效。在这种情况下，持续评估阈值来匹配系统的最新状态根本无法通过人工进行保证。

解决方案：自动限流

针对如上问题解法如下：

问题1. 接口多，无法全面覆盖
解：系统自动配置
问题2.限流阈值无法准确评估
解：系统自动评估
问题3. 限流阈值无法长期有效
解：系统动态调整

具体方案如下：

系统资源到达使用率到达预警线的时候，系统自动触发系统进行全面限流，各接口的限流值根据应用当前的流量状态以及历史的流量状态而定。

什么时候限流：应用的容量取决于系统的资源瓶颈，当资源的使用率到达某一水平的时候才需要限流。资源包括数据库、缓存、应用服务器等。
谁来限：系统自动
限哪些接口：由于同一个应用不同接口都共享了数据库、缓存等、应用服务器等资源，接口之间的容量会相互影响，所以需要全部接口都限制才能保证资源的使用率不再上升。
各接口限多少？在资源使用率到达瓶颈的时候，所有的接口性能都会下降，对应的限流阈值也应该下调。具体的限流计算有两种方式：
1. 可以把系统在当前状态下各接口能够正常完成的请求量作为限流的参考值，来保证资源利用率不在上升。比如接口A接受到的请求速率为100，其中50排队，20报错，30正常完成，那么该接口限流值可以参考30（为排除正常抖动，具体的值可以通过滑动窗口进行平滑）。
2. 可以把上一同比周期的同时间（比如昨天的同一时间）的各接口的请求量作为限流的参考值。可以看着一种回滚：我不知道问题出在哪个接口，但是按照上个周期同时刻的流量来是没问题的。

落地实践：

为防止自动限流的不可控性，可同时使用自动限流和人工限流两种方式，具体方法如下：

系统分为正常状态和戒严状态：正常状态下使用人工限流，戒严状态下使用自动限流。
正常情况下系统使用人工限流，开发人员可以针对重点接口进行限流配置。
当限流值失效或者未配置限流的时候导致系统资源到达预警值时，系统进入戒严状态，此时系统由自动限流接管，并通知开发人员。
开发人员收到通知后进行排查，确定导致资源利用率上升的原因，并针对相关接口进行人工限流值的调整（可以参考到达瓶颈前的qps），并使系统重新切换到正常状态。

备注

该方案还需更多场景验证，如有疏漏还请指出，欢迎有兴趣的小伙伴共同探讨。

作者：京东零售马坚

来源：京东云开发者社区

Tags：自动限流点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

关于自动限流的思考

目标保证系统不因流量过载而挂。现状：人工限流正常的微服务限流工具都需要人工配置：支持应用负责人事先配置限流规则（接口+调用方+限流阈值），流量在阈值以下可以正常响应，超过阈值...【详细内容】

2023-08-03　　Search: 自动限流点击:(270)　　评论:(0)　　加入收藏

▌简易百科推荐

即将过时的 5 种软件开发技能！

作者 | Eran Yahav编译 | 言征出品 | 51CTO技术栈（微信号：blog51cto）时至今日，AI编码工具已经进化到足够强大了吗？这未必好回答，但从2023 年 Stack Overflow 上的调查数据来看，44%...【详细内容】

2024-04-03　　　　51CTO　　Tags:软件开发　点击:(5)　　评论:(0)　　加入收藏

跳转链接代码怎么写？

在网页开发中，跳转链接是一项常见的功能。然而，对于非技术人员来说，编写跳转链接代码可能会显得有些困难。不用担心！我们可以借助外链平台来简化操作，即使没有编程经验，也能轻松实...【详细内容】

2024-03-27　　蓝色天纪　　　　Tags:跳转链接　点击:(12)　　评论:(0)　　加入收藏

中台亡了，问题到底出在哪里？

曾几何时，中台一度被当做“变革灵药”，嫁接在“前台作战单元”和“后台资源部门”之间，实现企业各业务线的“打通”和全域业务能力集成，提高开发和服务效率。但在中台如火如荼之...【详细内容】

2024-03-27　　dbaplus社群　　　　Tags:中台　点击:(8)　　评论:(0)　　加入收藏

员工写了个比删库更可怕的Bug！

想必大家都听说过删库跑路吧，我之前一直把它当一个段子来看。可万万没想到，就在昨天，我们公司的某位员工，竟然写了一个比删库更可怕的 Bug！给大家分享一下（不是公开处刑），希望朋友们...【详细内容】

2024-03-26　　dbaplus社群　　　　Tags:Bug 　点击:(5)　　评论:(0)　　加入收藏

我们一起聊聊什么是正向代理和反向代理

从字面意思上看，代理就是代替处理的意思，一个对象有能力代替另一个对象处理某一件事。代理，这个词在我们的日常生活中也不陌生，比如在购物、旅游等场景中，我们经常会委托别人代替...【详细内容】

2024-03-26　　萤火架构　　微信公众号　　Tags:正向代理　点击:(10)　　评论:(0)　　加入收藏

看一遍就理解：IO模型详解

前言大家好，我是程序员田螺。今天我们一起来学习IO模型。在本文开始前呢，先问问大家几个问题哈~什么是IO呢？什么是阻塞非阻塞IO？什么是同步异步IO？什么是IO多路复用？select/epoll...【详细内容】

2024-03-26　　捡田螺的小男孩　　微信公众号　　Tags:IO模型　点击:(8)　　评论:(0)　　加入收藏

为什么都说 HashMap 是线程不安全的？

做Java开发的人，应该都用过 HashMap 这种集合。今天就和大家来聊聊，为什么 HashMap 是线程不安全的。1.HashMap 数据结构简单来说，HashMap 基于哈希表实现。它使用键的哈希码来...【详细内容】

2024-03-22　　Java技术指北　　微信公众号　　Tags:HashMap 　点击:(11)　　评论:(0)　　加入收藏

如何从头开始编写LoRA代码，这有一份教程

选自 lightning.ai作者：Sebastian Raschka机器之心编译编辑：陈萍作者表示：在各种有效的 LLM 微调方法中，LoRA 仍然是他的首选。LoRA（Low-Rank Adaptation）作为一种用于微调 LLM（大...【详细内容】

2024-03-21　　机器之心Pro　　　　Tags:LoRA 　点击:(12)　　评论:(0)　　加入收藏

这样搭建日志中心，传统的ELK就扔了吧！

最近客户有个新需求，就是想查看网站的访问情况。由于网站没有做google的统计和百度的统计，所以访问情况，只能通过日志查看，通过脚本的形式给客户导出也不太实际，给客户写个简单的...【详细内容】

2024-03-20　　dbaplus社群　　　　Tags:日志　点击:(4)　　评论:(0)　　加入收藏

Kubernetes 究竟有没有 LTS？

从一个有趣的问题引出很多人都在关注的 Kubernetes LTS 的问题。有趣的问题2019 年，一个名为 apiserver LoopbackClient Server cert expired after 1 year[1] 的 issue 中提...【详细内容】

2024-03-15　　云原生散修　　微信公众号　　Tags:Kubernetes 　点击:(6)　　评论:(0)　　加入收藏

推荐资讯

AI是万灵药？Meta要把大	考研调剂第一次失败后
高职单招是什么意思？	在饭局上喝酒，要学会3
汽车不停能开多少公里	三证齐全，中国“飞的”
小米SU7被大卸八块，雷	视频号，从抖音挖来一个