如何通过三行配置解决在Kubernetes中的gRPC扩展问题

时间：2023-11-07 14:39:48 来源：微信公众号作者：技术的游戏

一切都始于我向我们的高级软件工程师提出的一个问题： “忘掉通信速度。你真的觉得在gRPC中开发通信比REST更好吗？” 我不想听到的答案立刻就来了：“绝对是的。”

在我提出这个问题之前，我一直在监控我们的服务在滚动更新和扩展Pod时出现的奇怪行为。我们的大多数微服务以往都通过REST调用进行通信，没有任何问题。我们已经将一些这些集成迁移到了gRPC，主要是因为我们想摆脱REST的开销。最近，我们观察到了一些问题，都指向了同一个方向——我们的gRPC通信。当然，我们遵循了在Kube.NETes中运行gRPC而不使用服务网格的建议实践，我们在服务器上使用了一个无头服务对象，并在gRPC中使用了客户端的“轮询”负载平衡与DNS发现等。

扩展Pod数量

Kubernetes内部负载均衡器不是用于负载均衡RPC，而是用于负载均衡TCP连接。第四层负载均衡器由于其简单性而很常见，因为它们与协议无关。但是，gRPC破坏了Kubernetes提供的连接级负载均衡。这是因为gRPC是基于HTTP/2构建的，而HTTP/2被设计为维护一个长期存在的TCP连接，该连接中的所有请求都可以在任何时间点同时处于活动状态。这减少了连接管理的开销。然而，在这种情况下，连接级别的负载平衡并不是非常有用，因为一旦建立了连接，就不再需要进行负载平衡。所有的请求都会固定到原始目标Pod，直到发生新的DNS发现（使用无头服务）。这不会发生，直到至少有一个现有连接断开。

问题示例：

2个客户端（A）调用2个服务器（B）。
自动缩放器介入并扩展了客户端。
服务器Pod负载过重，因此自动缩放器介入并增加了服务器Pod的数量，但没有进行负载平衡。甚至可以看到新Pod上没有传入的流量。
客户端被缩减。
客户端再次扩展，但负载仍然不平衡。
一个服务器Pod因过载而崩溃，发生了重新发现。
在图片中没有显示，但是当Pod恢复时，情况看起来与图3类似，即新Pod不会接收流量。

如何通过三行配置解决在Kubernetes中的gRPC扩展问题

gRPC负载均衡的示例

两个配置解决这个问题，技术上说是一行

正如我之前提到的，我们使用“客户端负载均衡”，并使用无头服务对象进行DNS发现。其他选项可能包括使用代理负载均衡或实现另一种发现方法，该方法将询问Kubernetes API而不是DNS。

除此之外，gRPC文档提供了服务器端连接管理提案，我们也尝试过它。

以下是我为设置以下服务器参数提供的建议，以及gRPC初始化的Go代码片段示例：

将MAX_CONNECTION_AGE设置为30秒。这个时间段足够长，可以在没有昂贵且频繁的连接建立过程的情况下进行低延迟通信。此外，它允许服务相对快速地响应新Pod的存在，因此流量分布将保持平衡。
将MAX_CONNECTION_AGE_GRACE设置为10秒。定义了连接保持活动状态以完成未完成的RPC的最大时间。

grpc.KeepaliveParams(keepalive.ServerParameters{
      MaxConnectionAge:      time.Second * 30,  // THIS one does the trick
      MaxConnectionAgeGrace: time.Second * 10,
  })

在现实世界中的行为：

如何通过三行配置解决在Kubernetes中的gRPC扩展问题

gRPC配置更改应用前后的Pod数量

如何通过三行配置解决在Kubernetes中的gRPC扩展问题

在gRPC配置更改后观察到的新Pod中的网络I/O活动

接下来是第三行

扩展问题已经解决，但另一个问题变得更加明显。焦点转向了客户端在滚动更新期间出现的gRPC code=UNAVAILABLE 错误。奇怪的是，这只在滚动更新期间观察到，而在单个Pod扩展事件中却没有观察到。

如何通过三行配置解决在Kubernetes中的gRPC扩展问题

滚动更新期间的gRPC错误数量

部署滚动的过程很简单：创建一个新的副本集，创建一个新的Pod，当Pod准备就绪时，旧的Pod将从旧的副本集中终止，以此类推。每个Pod之间的启动时间间隔为15秒。关于gRPC DNS重新发现，我们知道它仅在旧连接中断或以GOAWAY信号结束时才会启动。因此，客户端每15秒开始一次新的重新发现，但获取到了过时的DNS记录。然后，它们不断进行重新发现，直到成功为止。

除非不是DNS问题...

几乎每个地方都有DNS TTL缓存。基础设施DNS具有其自己的缓存。JAVA客户端遭受了它们默认的30秒TTL缓存，而Go客户端通常没有实现DNS缓存。与此相反，Java客户端报告了数百或数千次此问题的发生。当然，我们可以缩短TTL缓存的时间，但为什么要在滚动更新期间只影响gRPC呢？

幸运的是，有一个易于实现的解决方法。或者更好地说，解决方案：让新Pod启动时设置30秒的延迟。

.spec.minReadySeconds = 30

Kubernetes部署规范允许我们设置新Pod必须处于就绪状态的最短时间，然后才会开始终止旧Pod。在此时间之后，连接被终止，gRPC客户端收到GOAWAY信号并开始重新发现。TTL已经过期，因此客户端获取到了新的、最新的记录。

结论

从配置的角度来看，gRPC就像一把瑞士军刀，可能不会默认适合您的基础架构或应用程序。查看文档，进行调整，进行实验，并充分利用您已经拥有的资源。我相信可靠和弹性的通信应该是您的最终目标。

我还建议查看以下内容：

Keepalives。对于短暂的内部集群连接来说可能没有意义，但在某些其他情况下可能会有用。
重试。有时，值得首先进行一些退避重试，而不是通过尝试创建新连接来过载基础设施。
代码映射。将您的gRPC响应代码映射到众所周知的HTTP代码，以更好地了解发生了什么情况。
负载均衡。平衡是关键。不要忘记设置回退并进行彻底的测试。
服务器访问日志（gRPC code=OK）可能会因默认设置为信息级别而太冗长。考虑将它们降低到调试级别并进行筛选。

Tags：Kubernetes 点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

Kubernetes 究竟有没有 LTS？

从一个有趣的问题引出很多人都在关注的 Kubernetes LTS 的问题。有趣的问题2019 年，一个名为 apiserver LoopbackClient Server cert expired after 1 year[1] 的 issue 中提...【详细内容】

2024-03-15　　Search: Kubernetes 点击:(6)　　评论:(0)　　加入收藏

Kubernetes 集群 CPU 使用率只有 13% ：这下大家该知道如何省钱了

作者 | THE STACK译者 | 刘雅梦策划 | Tina根据 CAST AI 对 4000 个 Kubernetes 集群的分析，Kubernetes 集群通常只使用 13% 的 CPU 和平均 20% 的内存，这表明存在严重的过度...【详细内容】

2024-03-08　　Search: Kubernetes 点击:(12)　　评论:(0)　　加入收藏

聊聊 Kubernetes 网络模型综合指南

这篇详细的博文探讨了 Kubernetes 网络的复杂性，提供了关于如何在容器化环境中确保高效和安全通信的见解。译自Navigating the Network: A Comprehensive Guide to Kubernete...【详细内容】

2024-02-19　　Search: Kubernetes 点击:(37)　　评论:(0)　　加入收藏

Kubernetes是什么？主要特点是什么？

Kubernetes是什么？Kubernetes，也称为K8s，是一个开源的容器编排系统，由Google首次开发和维护。它允许容器化的应用程序在集群中自动部署、扩展和管理。Kubernetes提供了一种容器...【详细内容】

2024-02-01　　Search: Kubernetes 点击:(153)　　评论:(0)　　加入收藏

开发者的Kubernetes懒人指南

你可以将本文作为开发者快速了解 Kubernetes 的指南。从基础知识到更高级的主题，如 Helm Chart，以及所有这些如何影响你作为开发者。译自Kubernetes for Lazy Developers。作...【详细内容】

2024-02-01　　Search: Kubernetes 点击:(50)　　评论:(0)　　加入收藏

Kubernetes Informer基本原理，你明白了吗？

本文分析 k8s controller 中 informer 启动的基本流程不论是 k8s 自身组件，还是自己编写 controller，都需要通过 apiserver 监听 etcd 事件来完成自己的控制循环逻辑。如何高...【详细内容】

2024-01-30　　Search: Kubernetes 点击:(37)　　评论:(0)　　加入收藏

Kubernetes 100个常用命令！

这篇文章是关于使用 Kubectl 进行 Kubernetes 诊断的指南。列出了 100 个 Kubectl 命令，这些命令对于诊断 Kubernetes 集群中的问题非常有用。这些问题包括但不限于：• 集...【详细内容】

2024-01-03　　Search: Kubernetes 点击:(76)　　评论:(0)　　加入收藏

一文读懂Kubernetes部署策略

在这篇文章中，我们将深入研究 Kubernetes 部署概念和一些常见策略，了解每种策略的优缺点。合适的部署策略使我们能够在发布应用程序时最大限度地减少停机时间、增强客户体验并...【详细内容】

2024-01-03　　Search: Kubernetes 点击:(59)　　评论:(0)　　加入收藏

从Kubernetes的探针到DevOps

今天在群里又看有人问如何设置 Kubernetes 的探针，感觉要补充的话太多了，结合我们在一些 DevOps 项目中痛苦的体验，今天一劳永逸的全部说完，此外，也为大家展现一下为什么 DevOps...【详细内容】

2023-12-27　　Search: Kubernetes 点击:(114)　　评论:(0)　　加入收藏

如何基于Kubernetes运行Nacos高可用集群

Nacos（Namings and Configuration Management）是阿里巴巴开源的一个易于构建云原生应用的动态服务发现、配置管理和服务管理平台。以下是Nacos的一些主要功能和特点：服务发现...【详细内容】

2023-12-18　　Search: Kubernetes 点击:(69)　　评论:(0)　　加入收藏

▌简易百科推荐

对于微服务架构监控应该遵守的原则

随着软件交付方式的变革，微服务架构的兴起使得软件开发变得更加快速和灵活。在这种情况下，监控系统成为了微服务控制系统的核心组成部分。随着软件的复杂性不断增加，了解系统的...【详细内容】

2024-04-03　　步步运维步步坑　　　　Tags:架构　点击:(5)　　评论:(0)　　加入收藏

大模型应用的 10 种架构模式

作者 | 曹洪伟在塑造新领域的过程中，我们往往依赖于一些经过实践验证的策略、方法和模式。这种观念对于软件工程领域的专业人士来说，已经司空见惯，设计模式已成为程序员们的重...【详细内容】

2024-03-27　　　　InfoQ　　Tags:架构模式　点击:(13)　　评论:(0)　　加入收藏

哈啰云原生架构落地实践

一、弹性伸缩技术实践1.全网容器化后一线研发的使用问题全网容器化后一线研发会面临一系列使用问题，包括时机、容量、效率和成本问题，弹性伸缩是云原生容器化后的必然技术选择...【详细内容】

2024-03-27　　哈啰技术　　微信公众号　　Tags:架构　点击:(10)　　评论:(0)　　加入收藏

DDD 与 CQRS 才是黄金组合

在日常工作中，你是否也遇到过下面几种情况：使用一个已有接口进行业务开发，上线后出现严重的性能问题，被老板当众质疑：“你为什么不使用缓存接口，这个接口全部走数据库，这怎么能扛...【详细内容】

2024-03-27　　dbaplus社群　　　　Tags:DDD 　点击:(11)　　评论:(0)　　加入收藏

高并发架构设计（三大利器：缓存、限流和降级）

软件系统有三个追求：高性能、高并发、高可用，俗称三高。本篇讨论高并发，从高并发是什么到高并发应对的策略、缓存、限流、降级等。引言1.高并发背景互联网行业迅速发展，用户量剧...【详细内容】

2024-03-13　　　　阿里云开发者　　Tags:高并发　点击:(6)　　评论:(0)　　加入收藏

如何判断架构设计的优劣？

架构设计的基本准则是非常重要的，它们指导着我们如何构建可靠、可维护、可测试的系统。下面是这些准则的转换表达方式：简单即美（KISS）：KISS原则的核心思想是保持简单。在设计系统...【详细内容】

2024-02-20　　二进制跳动　　微信公众号　　Tags:架构设计　点击:(36)　　评论:(0)　　加入收藏

详解基于SpringBoot的WebSocket应用开发

在现代Web应用中，实时交互和数据推送的需求日益增长。WebSocket协议作为一种全双工通信协议，允许服务端与客户端之间建立持久性的连接，实现实时、双向的数据传输，极大地提升了用...【详细内容】

2024-01-30　　ijunfu　　今日头条　　Tags:SpringBoot 　点击:(9)　　评论:(0)　　加入收藏

PHP+Go 开发仿简书，实战高并发高可用微服务架构

来百度APP畅享高清图片//下栽のke：chaoxingit.com/2105/PHP和Go语言结合，可以开发出高效且稳定的仿简书应用。在实现高并发和高可用微服务架构时，我们可以采用一些关键技术。首...【详细内容】

2024-01-14　　547蓝色星球　　　　Tags:架构　点击:(115)　　评论:(0)　　加入收藏

GraalVM与Spring Boot 3.0：加速应用性能的完美融合

在2023年，SpringBoot3.0的发布标志着Spring框架对GraalVM的全面支持，这一支持是对Spring技术栈的重要补充。GraalVM是一个高性能的多语言虚拟机，它提供了Ahead-of-Time(AOT)编...【详细内容】

2024-01-11　　　　王建立　　Tags:Spring Boot 　点击:(124)　　评论:(0)　　加入收藏

Spring Boot虚拟线程的性能还不如Webflux？

早上看到一篇关于Spring Boot虚拟线程和Webflux性能对比的文章，觉得还不错。内容较长，抓重点给大家介绍一下这篇文章的核心内容，方便大家快速阅读。测试场景作者采用了一个尽可...【详细内容】

2024-01-10　　互联网架构小马哥　　　　Tags:Spring Boot 　点击:(115)　　评论:(0)　　加入收藏

推荐资讯

你的自拍和聊天记录，正	手机还装不下AI的梦想
中国修订基础设施等特	金店跑路，存金难兑黄
花10万买的数字藏品成	超30城支持！房子“以旧
耶伦记者会：访华取得三	tiktok优质视频判断标