浅析Kubernetes网络模型

时间：2020-09-23 09:57:19 来源：作者：

通过我们对各种容器网络模型的实现原理已经有了基本的认识，然而真正将容器技术发扬光大的是Kubernetes容器编排平台。Kubernetes通过整合规模庞大的容器实例形成集群，这些容器实例可能运行在异构的底层网络环境中，如何保证这些容器间的互通是实际生产环境中首要考虑的问题之一。

Kubernetes网络基本要求

Kubernetes对容器技术做了更多的抽象，其中最重要的一点是提出pod的概念，pod是Kubernetes资源调度的基本单元，我们可以简单地认为pod是容器的一种延伸扩展，从网络的角度来看，pod必须满足以下条件：

每一个Pod都有一个独特的IP地址，所有pod都在一个可以直接连通的、扁平的网络空间中
同一个pod内的所有容器共享同一个netns网络命名空间

基于这样的基本要求，我们可以知道：

同一个pod内的所有容器之间共享端口，可直接通过localhost+端口来访问
由于每个pod有单独的IP，所以不需要考虑容器端口与主机端口映射以及端口冲突问题

事实上，Kubernetes进一步确定了对一个合格集群网络的基本要求：

任意两个pod之间其实是可以直接通信的，无需显式地使用NAT进行地址的转换；
任意集群节点node与任意pod之间是可以直接通信的，无需使用明显的地址转换，反之亦然；
任意pod看到自己的IP跟别人看见它所用的IP是一样的，中间不能经过地址转换；

也就是说，必须同时满足以上三点的网络模型才能适用于kubernetes，事实上，在早期的Kubernetes中，并没有什么网络标准，只是提出了以上基本要求，只有满足这些要求的网络才可以部署Kubernetes，基于这样的底层网络假设，Kubernetes设计了pod-deployment-service的经典三层服务访问机制。直到1.1发布，Kubernetes才开始采用全新的CNI(Container Network Interface)网络标准。

CNI

其实，我们在前面介绍容器网络的时候，就提到了CNI网络规范，CNI相对于CNM(Container Network Model)对开发者的约束更少，更开放，不依赖于Docker。事实上，CNI规范确实非常简单，详见：https://github.com/containernetworking/cni/blob/master/SPEC.md

实现一个CNI网络插件只需要一个配置文件和一个可执行的文件：

配置文件描述插件的版本、名称、描述等基本信息
可执行文件会被上层的容器管理平台调用，一个CNI可执行文件自需要实现将容器加入到网络的ADD操作以及将容器从网络中删除的DEL操作（以及一个可选的VERSION查看版本操作）

Kubernetes使用CNI网络插件的基本工作流程：

kubelet先创建pause容器生成对应的netns网络命名空间
根据配置调用具体的CNI插件，可以配置成CNI插件链来进行链式调用
当CNI插件被调用时，它根据环境变量以及命令行参数来获得网络命名空间netns、容器的网络设备等必要信息，然后执行ADD操作
CNI插件给pause容器配置正确的网络，pod中其他的容器都是用pause容器的网络

如果不清楚什么是pause容器，它在pod中处于什么样的位置，请查看之前的笔记：https://morven.life/notes/from-container-to-pod/

pod网络模型

要了解kubernetes网络模型的实现原理，我们就要从单个pod入手，事实上，一旦熟悉了单个pod的网络模型，就会发现kubernetes网络模型基本遵循和容器网络模型一样的原理。

通过前面的笔记从docker容器到pod，我们知道pod启动的时候先创建pause容器生成对应的netns网络命名空间，然后其他容器共享pause容器创建的网络命名空间。而对于单个容器的网络模型我们之前也介绍过，主要就是通过docker0网桥设备与veth设备对连接不同的容器网络命名空间，由此，我们可以得到如下图所示的单个pod网络模型的创建过程：

可以看到，同一个pod里面的其他容器共享pause容器创建的网络命名空间，也就是说，所有的容器共享相同的网络设备，路由表设置，服务端口等信息，仿佛是在同一台机器上运行的不同进程，所以这些容器之间可以直接通过localhost与对应的端口通信；对于集群外部的请求，则通过docker0网桥设备充当的网关，同时通过iptables做地址转换。我们会发现，这其实就是对当个容器的bridge网络模型的扩展。

主流kubernetes网络方案

上一小节我们知道单个pod的网络模型是容器网络模型的扩展，但是pod与pod之间的是怎么相互通信的呢？这其实与容器之间相互通信非常类似，也分为同一个主机上的pod之间与跨主机的pod之间两种。

如容器网络模型一样，对于统一主机上的pod之间，通过docker0网桥设备直接二层（数据链路层）网络上通过mac地址直接通信：

而跨主机的pod之间的相互通信也主要有以下两个思路：

修改底层网络设备配置，加入容器网络IP地址的管理，修改路由器网关等，该方式主要和SDN(Software define networking)结合。
完全不修改底层网络设备配置，复用原有的underlay平面网络，解决容器跨主机通信，主要有如下两种方式:隧道传输(Overlay)：将容器的数据包封装到原主机网络的三层或者四层数据包中，然后使用主机网络的IP或者TCP/UDP传输到目标主机，目标主机拆包后再转发给目标容器。Overlay隧道传输常见方案包括Vxlan、ipip等，目前使用Overlay隧道传输技术的主流容器网络有Flannel等；

修改主机路由：把容器网络加到主机路由表中，把主机网络设备当作容器网关，通过路由规则转发到指定的主机，实现容器的三层互通。目前通过路由技术实现容器跨主机通信的网络如Flannel host-gw、Calico等；

下面简单介绍几种主流的方案：

Flannel是目前使用最为普遍的方案，提供了多种网络backend，它支持多种数据路径，也适合于overlay/underlay等多种场景。对于overlay的数据包封装，可以使用用户态的UDP，内核态的Vxlan(性能相对较好)，甚至在集群规模不大，且处于同一个二层域时可以采用host-gw的方式修改主机路由表；
Weave工作模式与Flannel很相似的，它最早只提供了UDP（称为sleeve模式）的网络方式，后来又加上了fastpass方式（基于VxLAN），不过Weave消除了Flannel中用来存储网络地址的额外组件，自己集成了高可用的数据存储功能；
Calico主要是采用了修改主机路由，节点之间采用BGP的协议去进行路由的同步。但是现实中的网络并不总是支持BGP路由的，因此Calico也支持内核中的IPIP模式，使用overlay的方式来传输数据；

下表是几种主流Kubernetes网络方案的对比：

| A | Overlay-Network | Host-RouteTable | NetworkPolicy Support | Decentralized IP Allocation | | – | — | — | — | — | | Flannel | UDP/VXLAN | Host-GW | N | N | | Weave | UDP/VXLAN | N/A | Y | Y | | Calico | IPIP | BGP | Y | N |

策略控制(Network Policy)

Network Policy)是Kubernetes提供的基于策略的网络控制，用于隔离应用并提高安全性。它使用Kubernetes中常用的标签选择器模拟传统的分段网络，并通过策略控制它们之间的东西流量以及与外部交流的南北流量。

Note: 确保使用的网络插件支持策略控制(Network Policy)，比如Flannel就没有实现Network Policy；

下面的例子是配置一个典型的Network Policy的实例：

apiVersion: networking.k8s.io/v1
kind: NetworkPolicy
metadata:
  name: test-network-policy
  namespace: default
spec:
  podSelector:
    matchLabels:
      role: db
  policyTypes:
  - Ingress
  - Egress
  ingress:
  - from:
    - ipBlock:
        cidr: 172.17.0.0/16
        except:
        - 172.17.1.0/24
    - namespaceSelector:
        matchLabels:
          project: myproject
    - podSelector:
        matchLabels:
          role: frontend
    ports:
    - protocol: TCP
      port: 6379
  egress:
  - to:
    - ipBlock:
        cidr: 10.0.0.0/24
    ports:
    - protocol: TCP
      port: 5978

它使用标签选择器namespaceSelector与posSelector控制pod之间的流量，流量的行为模式主要由以下三个对象决定：

控制对象：通过spec.podSelector筛选
流量方向：ingress控制入pod流量，egress控制出pod流量
流量特征：对端-IP-协议-端口

通过使用Network Policy可以实现对进出流的精确控制，它采用各种选择器（标签或namespace），找到一组满足条件的pod，或者找到相当于通信的两端，然后通过流量的特征描述来决定它们之间是不是可以连通，可以理解为一个白名单的机制。

原文地址：https://morven.life/notes/networking-6-k8s-summary/

Tags：Kubernetes 点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com)，我们将及时更正、删除，谢谢。

▌相关推荐

Kubernetes 原生 CI/CD 构建框架 Argo

流水线（Pipeline）是把一个重复的过程分解为若干个子过程，使每个子过程与其他子过程并行进行的技术。本文主要介绍了诞生于云原生时代的流水线框架 Argo。什么是流水线？在计算机...【详细内容】

2021-11-30　　Tags: Kubernetes 点击:(21)　　评论:(0)　　加入收藏

如何通过抓包来查看Kubernetes API流量？

当我们通过kubectl来查看、修改Kubernetes资源时，有没有想过后面的接口到底是怎样的？有没有办法探查这些交互数据呢？Kuberenetes客户端和服务端交互的接口，是基于http协议的。所...【详细内容】

2021-11-23　　Tags: Kubernetes 点击:(29)　　评论:(0)　　加入收藏

Nginx 推出 Kubernetes 微服务参考架构

在今年的NGINX Sprint 2.0虚拟大会上，NGINX（来自流行的开源web服务器/负载均衡器和反向代理背后的公司F5），发布了NGINX现代应用参考架构（MARA）。该公司在一篇博客文章中说，这将帮...【详细内容】

2021-09-26　　Tags: Kubernetes 点击:(60)　　评论:(0)　　加入收藏

自建Kubernetes集群如何使用弹性容器实例ECI

虚拟节点（Virtual Node）实现了Kubernetes与弹性容器实例ECI的无缝连接，让Kubernetes集群轻松获得极大的弹性能力，而不必受限于集群的节点计算容量。您可以灵活动态的按需创建ECI...【详细内容】

2021-04-15　　Tags: Kubernetes 点击:(231)　　评论:(0)　　加入收藏

图解Kubernetes故障排查指南

针对越来多的Kubernetes容器云，对Kubernetes集群的故障排查却成了一个棘手问题。本文虫虫给大家以直观图示方式介绍如何排查Kubernetes的故障。该篇是系列文章续—&mdas...【详细内容】

2020-12-22　　Tags: Kubernetes 点击:(129)　　评论:(0)　　加入收藏

2020年，值得收藏的50多种Kubernetes工具

在过去几年，Kubernetes 在容器编排市场独占鳌头。自 2016 年以来，Docker Swarm 就退出了主要竞争者的行列，并且像 AWS 一样承诺对 K8s 进行支持和集成，换句话说，它承认了失败。目...【详细内容】

2020-11-30　　Tags: Kubernetes 点击:(126)　　评论:(0)　　加入收藏

从零开始入门K8S| 从Spring Cloud到Kubernetes的微服务迁移实践

写在前面要出发周边游（以下简称要出发）是国内知名的主打「周边游」的在线旅行网站，为了降低公司内部各个业务模块的耦合度，提高开发、交付及运维效率，我们在 2017 年就基于 Sprin...【详细内容】

2020-11-27　　Tags: Kubernetes 点击:(156)　　评论:(0)　　加入收藏

五分钟极速搭建kubernetes集群

kubernetes的集群搭建有多种方式：二进制、kubeadm、ansible自动化、minikube。minikube方式比较简单，但是只是单节点，适合学习kubernetes基础的时候使用。其他的方式安装都会...【详细内容】

2020-11-10　　Tags: Kubernetes 点击:(117)　　评论:(0)　　加入收藏

kubernetes Service DNS名称解析

背景：前端Pod 需要访问后端Pod ,可以采用service 的DNS 解析，为Kubernetes集群里的容器提供DNS服务，用于解析service名称一、部署CoreDNS Pod CoreDNS 是用于service做dns...【详细内容】

2020-11-03　　Tags: Kubernetes 点击:(70)　　评论:(0)　　加入收藏

深度对比docker和kubernetes的区别和联系

如果我们想要构建和运行一个现代的云基础设施，那么理解Docker和Kubernetes是必不可少的。本文主要给大家介绍Docker和Kubernetes技术以及它们之间的区别和联系。一、Docker1....【详细内容】

2020-10-19　　Tags: Kubernetes 点击:(81)　　评论:(0)　　加入收藏

▌简易百科推荐

HTTP 报文详解

HTTP 报文是在应用程序之间发送的数据块,这些数据块将通过以文本形式的元信息开头，用于 HTTP 协议交互。请求端(客户端)的 HTTP 报文叫做请求报文，响应端(服务器端)的叫做响应...【详细内容】

2021-12-27　　程序员蛋蛋　　　　Tags:HTTP 报文　点击:(0)　　评论:(0)　　加入收藏

网络基本概念和测试

一网络概念：1.带宽：标识网卡的最大传输速率，单位为 b/s,比如 1Gbps，10Gbps，相当于马路多宽2.吞吐量：单位时间内传输数据量大小单位为 b/s 或 B/s ,吞吐量/带宽，就是网络的使用率...【详细内容】

2021-12-27　　码农世界　　　　Tags:网络　点击:(2)　　评论:(0)　　加入收藏

TCP/IP 网络模型有几层？分别有什么用？

1.TCP/IP 网络模型有几层？分别有什么用？ TCP/IP网络模型总共有五层 1.应用层:我们能接触到的就是应用层了，手机，电脑这些这些设备都属于应用层。 2.传输层:就是为应用层提供网络...【详细内容】

2021-12-22　　憨猪哥08　　　　Tags:TCP/IP 　点击:(29)　　评论:(0)　　加入收藏

一文带你搞定TCP连接队列

TCP握手的时候维护的队列半连接队列（SYN队列）全连接队列（accepted队列）半连接队列是什么？服务器收到客户端SYN数据包后，Linux内核会把该连接存储到半连接队列中，并响应SYN+ACK报...【详细内容】

2021-12-21　　DifferentJava　　　　Tags:TCP 　点击:(9)　　评论:(0)　　加入收藏

下一代互联网快要来了？分清楚Web3和Web3.0再说！

你好，这里是科技前哨。随着“元宇宙”概念的爆火，下一代互联网即将到来，也成了互联网前沿热议的话题，12月9日美国众议院的听证会上，共和党议员Patrick McHenry甚至宣称，要调整现...【详细内容】

2021-12-17　　王煜全　　　　Tags:Web3 　点击:(14)　　评论:(0)　　加入收藏

Curator客户端子节点监听机制源码分析

一、demopublic static void main(String[] args) throws Exception { RetryPolicy retryPolicy = new ExponentialBackoffRetry( 1000, 3);...【详细内容】

2021-12-15　　程序员阿龙　　　　Tags:Curator 　点击:(20)　　评论:(0)　　加入收藏

计算机网络知识点全面总结（这也太全了吧！）

一、计算机网络概述 1.1 计算机网络的分类按照网络的作用范围：广域网（WAN）、城域网（MAN）、局域网（LAN）；按照网络使用者：公用网络、专用网络。1.2 计算机网络的层次结构 TCP/IP四层模...【详细内容】

2021-12-14　　一口Linux　　　　Tags:网络知识　点击:(30)　　评论:(0)　　加入收藏

为什么手机成功连接WiFi却没办法上网？路由器：这锅我可不背

无论是在外面还是在家里，许多人都习惯了用手机连接 WiFi 进行上网。不知道大家有没有遇到过这样一种情况，明明已经显示成功连接 WiFi，却仍然提示“网络不可用”或“不可上网”...【详细内容】

2021-12-14　　UGREEN绿联　　　　Tags:WiFi 　点击:(25)　　评论:(0)　　加入收藏

WiFi 跑不满千兆的原因，今天终于搞懂了

拉了千兆宽带，买了标称 1300Mbps 的无线路由器，为什么 WiFi 还是跑不满千兆？要回答这个问题，我们先得知道这个 1300Mbps 是怎么来的。开始回答之前先说明一下，这期只讲 802.11ac，...【详细内容】

2021-12-14　　Ubiquiti优倍快　　　　Tags:WiFi 　点击:(83)　　评论:(0)　　加入收藏

网络问题排查-IPv6环境下VIP地址不通

问题背景IPv6环境下，在浏览器中通过http://[vip:port]访问web业务，提示无法访问此网站，[vip]的响应时间过长。分析过程之前碰到过多次在PC浏览器上无法访问vip的情况，排查方法也...【详细内容】

2021-12-13　　云原生知识星球　　　　Tags:网络问题　点击:(27)　　评论:(0)　　加入收藏

推荐资讯

远程软件发展迅猛，ToDe	倒计时！企业QQ即将下架
极简Windows11与iPhon	iPhone信号问题，花10元
惊人数据：App Store中4	个人所得税递延纳税报
非常实用的 Python 库	等离子电视技术先进，为