当前大多数的互联网系统都使用了服务器集群技术,集群是将相同服务部署在多台服务器上构成一个集群整体对外提供服务。
图片来自 Unsplash
这些集群可以是 Web 应用服务器集群,也可以是数据库服务器集群,还可以是分布式缓存服务器集群等等。
在实际应用中,在 Web 服务器集群之前总会有一台负载均衡服务器,负载均衡设备的任务就是作为 Web 服务器流量的入口,挑选最合适的一台 Web 服务器,将客户端的请求转发给它处理,实现客户端到真实服务端的透明转发。
最近几年很火的云计算以及分布式架构,本质上也是将后端服务器作为计算资源、存储资源,由某台管理服务器封装成一个服务对外提供,客户端不需要关心真正提供服务的是哪台机器。
在它看来,就好像它面对的是一台拥有近乎无限能力的服务器,而本质上,真正提供服务的,是后端的集群。
LVS、Nginx、HAProxy 是目前使用很广泛的三种软件负载均衡软件。一般对负载均衡的使用是随着网站规模的提升根据不同的阶段来使用不同的技术。
具体的应用需求还得具体分析,如果是中小型的 Web 应用,比如日 PV 小于 1000 万,用 Nginx 就完全可以了。
如果机器不少,可以用 DNS 轮询,LVS 所耗费的机器还是比较多的;大型网站或重要的服务,且服务器比较多时,可以考虑用 LVS。
目前关于网站架构一般比较合理流行的架构方案:
LVS
LVS 是 linux Virtual Server 的简称,也就是 Linux 虚拟服务器。现在 LVS 已经是 Linux 标准内核的一部分。
从 Linux 2.4 内核以后,已经完全内置了 LVS 的各个功能模块,无需给内核打任何补丁,可以直接使用 LVS 提供的各种功能。
LVS 自从 1998 年开始,发展到现在已经是一个比较成熟的技术项目了。
LVS 的体系结构:
LVS 架设的服务器集群系统由三个部分组成:
LVS 负载均衡机制
LVS 不像 HAProxy 等七层软负载面向的是 HTTP 包,所以七层负载可以做的 URL 解析等工作,LVS 无法完成。
LVS 是四层负载均衡,也就是说建立在 OSI 模型的第四层,传输层之上,传输层上有我们熟悉的 TCP/UDP,LVS 支持 TCP/UDP 的负载均衡。
因为 LVS 是四层负载均衡,因此它相对于其它高层负载均衡的解决办法,比如 DNS 域名轮流解析、应用层负载的调度、客户端的调度等,它的效率是非常高的。
所谓四层负载均衡 ,也就是主要通过报文中的目标地址和端口。七层负载均衡 ,也称为“内容交换”,也就是主要通过报文中的真正有意义的应用层内容。
LVS 的转发主要通过修改 IP 地址(NAT 模式,分为源地址修改 SNAT 和目标地址修改 DNAT)、修改目标 mac(DR 模式)来实现。
NAT 模式:网络地址转换
NAT(Network Address Translation)是一种外网和内网地址映射的技术。
NAT 模式下,网络数据报的进出都要经过 LVS 的处理。LVS 需要作为 RS(真实服务器)的网关。
当包到达 LVS 时,LVS 做目标地址转换(DNAT),将目标 IP 改为 RS 的 IP。
RS 接收到包以后,仿佛是客户端直接发给它的一样。RS 处理完,返回响应时,源 IP 是 RS IP,目标 IP 是客户端的 IP。
这时 RS 的包通过网关(LVS)中转,LVS 会做源地址转换(SNAT),将包的源地址改为 VIP,这样,这个包对客户端看起来就仿佛是 LVS 直接返回给它的。
DR 模式:直接路由
DR 模式下需要 LVS 和 RS 集群绑定同一个 VIP(RS 通过将 VIP 绑定在 loopback 实现)。
但与 NAT 的不同点在于:请求由 LVS 接受,由真实提供服务的服务器(RealServer,RS)直接返回给用户,返回的时候不经过 LVS。
详细来看,一个请求过来时,LVS 只需要将网络帧的 MAC 地址修改为某一台 RS 的 MAC,该包就会被转发到相应的 RS 处理,注意此时的源 IP 和目标 IP 都没变,LVS 只是做了一下移花接木。
RS 收到 LVS 转发来的包时,链路层发现 MAC 是自己的,到上面的网络层,发现 IP 也是自己的,于是这个包被合法地接受,RS 感知不到前面有 LVS 的存在。
而当 RS 返回响应时,只要直接向源 IP(即用户的 IP)返回即可,不再经过 LVS。
DR 负载均衡模式数据分发过程中不修改 IP 地址,只修改 Mac 地址,由于实际处理请求的真实物理 IP 地址和数据请求目的 IP 地址一致,所以不需要通过负载均衡服务器进行地址转换。
可将响应数据包直接返回给用户浏览器,避免负载均衡服务器网卡带宽成为瓶颈。
因此,DR 模式具有较好的性能,也是目前大型网站使用广泛的一种负载均衡手段。
LVS 的优点如下:
LVS 的缺点如下:
Nginx
Nginx 是一个强大的 Web 服务器软件,用于处理高并发的 HTTP 请求和作为反向代理服务器做负载均衡。
它具有高性能、轻量级、内存消耗少,强大的负载均衡能力等优势。
Nignx 的架构设计
相对于传统基于进程或线程的模型(Apache 就采用这种模型)在处理并发连接时会为每一个连接建立一个单独的进程或线程,且在网络或者输入/输出操作时阻塞。
这将导致内存和 CPU 的大量消耗,因为新起一个单独的进程或线程需要准备新的运行时环境,包括堆和栈内存的分配,以及新的执行上下文,当然,这些也会导致多余的 CPU 开销。
最终,会由于过多的上下文切换而导致服务器性能变差。反过来,Nginx 的架构设计是采用模块化的、基于事件驱动、异步、单线程且非阻塞。
Nginx 大量使用多路复用和事件通知,Nginx 启动以后,会在系统中以 Daemon 的方式在后台运行,其中包括一个 Master 进程,n(n>=1) 个 Worker 进程。
所有的进程都是单线程(即只有一个主线程)的,且进程间通信主要使用共享内存的方式。
其中,Master 进程用于接收来自外界的信号,并给 Worker 进程发送信号,同时监控 Worker 进程的工作状态。
Worker 进程则是外部请求真正的处理者,每个 Worker 请求相互独立且平等的竞争来自客户端的请求。
请求只能在一个 Worker 进程中被处理,且一个 Worker 进程只有一个主线程,所以同时只能处理一个请求。(原理同 Netty 很像)
Nginx 负载均衡
Nginx 负载均衡主要是对七层网络通信模型中的第七层应用层上的 HTTP、HTTPS 进行支持。Nginx 是以反向代理的方式进行负载均衡的。
反向代理(Reverse Proxy)方式是指以代理服务器来接受 Internet 上的连接请求,然后将请求转发给内部网络上的服务器,并将从服务器上得到的结果返回给 Internet 上请求连接的客户端,此时代理服务器对外就表现为一个服务器。
Nginx 实现负载均衡的分配策略有很多,Nginx 的 Upstream 目前支持以下几种方式:
Nginx 的优点如下:
Nginx 的缺点如下:
HAProxy
HAProxy 支持两种代理模式 TCP(四层)和 HTTP(七层),也是支持虚拟主机的。
HAProxy 的优点能够补充 Nginx 的一些缺点,比如支持 Session 的保持,Cookie 的引导;同时支持通过获取指定的 URL 来检测后端服务器的状态。
HAProxy 跟 LVS 类似,本身就只是一款负载均衡软件;单纯从效率上来讲 HAProxy 会比 Nginx 有更出色的负载均衡速度,在并发处理上也是优于 Nginx 的。
HAProxy 支持 TCP 协议的负载均衡转发,可以对 MySQL 读进行负载均衡,对后端的 MySQL 节点进行检测和负载均衡,大家可以用 LVS+Keepalived 对 MySQL 主从做负载均衡。
HAProxy 负载均衡策略非常多:
Reference: