服务器性能指标——负载（Load）分析及问题排查

时间：2022-04-11 09:19:07 来源：掘金作者：HollisChuang

平常的工作中，在衡量服务器的性能时，经常会涉及到几个指标，load、cpu、mem、qps、rt等。每个指标都有其独特的意义，很多时候在线上出现问题时，往往会伴随着某些指标的异常。大部分情况下，在问题发生之前，某些指标就会提前有异常显示。

对于这些指标的理解和查看、异常解决等，是程序员们重要的必备技能。本文，主要来介绍一下一个比较重要的指标——机器负载（Load），主要涉及负载的定义、查看负载方式、负载飙高排查思路等。

什么是负载

负载(load)是linux机器的一个重要指标，直观了反应了机器当前的状态。

来看下负载的定义是怎样的：

In UNIX computing, the system load is a measure of the amount of computational work that a computer system performs. The load average represents the average system load over a period of time. It conventionally Appears in the form of three numbers which represent the system load during the last one-, five-, and fifteen-minute periods.（wikipedia）

简单解释一下：在UNIX系统中，系统负载是对当前CPU工作量的度量，被定义为特定时间间隔内运行队列中的平均线程数。load average 表示机器一段时间内的平均load。这个值越低越好。负载过高会导致机器无法处理其他请求及操作，甚至导致死机。

Linux的负载高，主要是由于CPU使用、内存使用、IO消耗三部分构成。任意一项使用过多，都将导致服务器负载的急剧攀升。

查看机器负载。

在Linux机器上，有多个命令都可以查看机器的负载信息。其中包括uptime、top、w等。

uptime命令

uptime命令能够打印系统总共运行了多长时间和系统的平均负载。uptime命令可以显示的信息显示依次为：现在时间、系统已经运行了多长时间、目前有多少登陆用户、系统在过去的1分钟、5分钟和15分钟内的平均负载。

➜  ~ uptime
13:29  up 23:41, 3 users, load averages: 1.74 1.87 1.97
复制代码

这行信息的后半部分，显示"load average"，它的意思是"系统的平均负荷"，里面有三个数字，我们可以从中判断系统负荷是大还是小。

1.74 1.87 1.97 这三个数字的意思分别是1分钟、5分钟、15分钟内系统的平均负荷。我们一般表示为load1、load5、load15。

w命令

w命令的主要功能其实是显示目前登入系统的用户信息。但是与who不同的是，w命令功能更加强大，w命令还可以显示：当前时间，系统启动到现在的时间，登录用户的数目，系统在最近1分钟、5分钟和15分钟的平均负载。然后是每个用户的各项数据，项目显示顺序如下：登录帐号、终端名称、远程主机名、登录时间、空闲时间、JCPU、PCPU、当前正在运行进程的命令行。

➜  ~ w
14:08  up 23:41, 3 users, load averages: 1.74 1.87 1.97
USER     TTY      FROM              LOGIN@  IDLE WHAT
hollis   console  -                六14   23:40 -
hollis   s000     -                六14   20:24 -zsh
hollis   s001     -                六15       - w
复制代码

从上面的w命令的结果可以看到，当前系统时间是14:08，系统启动到现在经历了23小时41分钟，共有3个用户登录。系统在近1分钟、5分钟和15分钟的平均负载分别是1.74 1.87 1.97。这和uptime得到的结果相同。下面还打印了一些登录的用户的各项数据，不详细介绍了。

top命令

top命令是Linux下常用的性能分析工具，能够实时显示系统中各个进程的资源占用状况，类似于windows的任务管理器。

➜  ~ top
Processes: 244 total, 3 running, 9 stuck, 232 sleeping, 1484 threads                                                                                                                               14:16:01
Load Avg: 1.74, 1.87, 1.97  CPU usage: 8.0% user, 6.79% sys, 85.19% idle   SharedLibs: 116M resident, 16M data, 14M linkedit. MemRegions: 66523 total, 2152M resident, 50M private, 930M shared.
PhysMem: 7819M used (1692M wired), 370M unused. VM: 682G vsize, 533M framework vsize, 6402060(0) swapins, 7234356(0) swapouts..NETworks: packets: 383006/251M in, 334448/60M out.
Disks: 1057821/38G read, 350852/40G written.

PID    COMMAND      %CPU TIME     #TH   #WQ  #PORT MEM    PURG   CMPRS  PGRP  PPID  STATE    BOOSTS          %CPU_ME %CPU_OTHRS UID  FAULTS    COW    MSGSENT   MSGRECV   SYSBSD    SYSmacH   CSW
30845  top          3.0  00:00.49 1/1   0    21    3632K  0B     0B     30845 1394  running  *0[1]           0.00000 0.00000    0    3283+     112    203556+   101770+   8212+     119901+   823+
30842  google Chrom 0.0  00:47.39 17    0    155   130M   0B     0B     1146  1146  sleeping *0[1]           0.00000 0.00000    501  173746    2697   117678    37821     364228    444830    310043
复制代码

上面的输出结果中，Load Avg: 1.74, 1.87, 1.97显示的就是负载信息。

机器正常负载范围

对于机器的Load到底多少算正常的问题，一直都是很有争议的，不同人有着不同的理解。对于单个CPU，有人认为如果Load超过0.7就算是超出正常范围了。也有人认为只要不超过1都没问题。也有人认为，单个CPU的负载在2以下都可以接受。

为什么会有这么多不同的理解呢，是因为不同的机器除了CPU影响之外还有其他因素的影响，运行的程序、机器内存、甚至是机房温度等都有可能有区别。

比如，有些机器用于定时执行大量的跑批任务，这个时间段内，Load可能会飙的比较高。而其他时间可能会比较低。那么这段飙高时间我们要不要去排查问题呢？

我的建议是，最好根据自己机器的实际情况，建立一个指标的基线（如近一个月的平均值），只要日常的load在基线上下范围内不太大都可以接收，如果差距太多可能就要人为介入检查了。

但是，总要有个建议的阈值吧，关于这个值。阮一峰在自己的博客中有过以下建议：

当系统负荷持续大于0.7，你必须开始调查了，问题出在哪里，防止情况恶化。

当系统负荷持续大于1.0，你必须动手寻找解决办法，把这个值降下来。

当系统负荷达到5.0，就表明你的系统有很严重的问题，长时间没有响应，或者接近死机了。你不应该让系统达到这个值。

以上指标都是基于单CPU的，但是现在很多电脑都是多核的。所以，对一般的系统来说，是根据cpu数量去判断系统是否已经过载（Over Load）的。如果我们认为0.7算是单核机器负载的安全线的话，那么四核机器的负载最好保持在3(4*0.7 = 2.8)以下。

还有一点需要提一下，在Load Avg的指标中，有三个值，1分钟系统负荷、5分钟系统负荷，15分钟系统负荷。我们在排查问题的时候也是可以参考这三个值的。

一般情况下，1分钟系统负荷表示最近的暂时现象。15分钟系统负荷表示是持续现象，并非暂时问题。如果load15较高，而load1较低，可以认为情况有所好转。反之，情况可能在恶化。

如何降低负载

导致负载高的原因可能很复杂，有可能是硬件问题也可能是软件问题。

如果是硬件问题，那么说明机器性能确实就不行了，那么解决起来很简单，直接换机器就可以了。

前面我们提过，CPU使用、内存使用、IO消耗都可能导致负载高。如果是软件问题，有可能由于JAVA中的某些线程被长时间占用、大量内存持续占用等导致。建议从以下几个方面排查代码问题：

1、是否有内存泄露导致频繁GC 2、是否有死锁发生 3、是否有大字段的读写 4、会不会是数据库操作导致的，排查SQL语句问题。

这里还有个建议，如果发现线上机器Load飙高，可以考虑先把堆栈内存dump下来后，进行重启，暂时解决问题，然后再考虑回滚和排查问题。

Java Web应用Load飙高排查思路

1、使用uptime查看当前load，发现load飙高。

➜  ~ uptime
13:29  up 23:41, 3 users, load averages: 10 10 10
复制代码

2、使用top命令，查看占用CPU较高的进程ID。

➜  ~ top

PID USER      PR  NI  VIRT  RES  SHR S %CPU %MEM    TIME+  COMMAND
1893 admin     20   0 7127m 2.6g  38m S 181.7 32.6  10:20.26 java
复制代码

发现PID为1893的进程占用CPU 181%。而且是一个Java进程，基本断定是软件问题。

3、使用 top命令，查看具体是哪个线程占用率较高

➜  ~ top -Hp 1893
PID USER      PR  NI  VIRT  RES  SHR S %CPU %MEM    TIME+  COMMAND
4519 admin     20   0 7127m 2.6g  38m R 18.6 32.6   0:40.11 java
复制代码

4、使用printf命令查看这个线程的16进制

➜  ~ printf %x 4519
11a7
复制代码

5、使用jstack命令查看当前线程正在执行的方法。(Java命令学习系列（二）——Jstack)

➜  ~ jstack 1893 |grep -A 200 11a7
"thread-5" #500 daemon prio=10 os_prio=0 tid=0x00007f632314a800 nid=0x11a2 runnable [0x000000005442a000]
java.lang.Thread.State: RUNNABLE
at sun.misc.URLClassPath$Loader.findResource(URLClassPath.java:684)
at sun.misc.URLClassPath.findResource(URLClassPath.java:188)
at java.net.URLClassLoader$2.run(URLClassLoader.java:569)
at java.net.URLClassLoader$2.run(URLClassLoader.java:567)
at java.security.AccessController.doPrivileged(Native Method)
at java.net.URLClassLoader.findResource(URLClassLoader.java:566)
at org.hibernate.validator.internal.xml.ValidationXmlParser.getInputStreamForPath(ValidationXmlParser.java:248)
at com.hollis.test.util.BeanValidator.validate(BeanValidator.java:30)
复制代码

从上面的线程的栈日志中，可以发现，当前占用CPU较高的线程正在执行我代码的
com.hollis.test.util.BeanValidator.validate(BeanValidator.java:30)类。那么就可以去排查这个类是否用法有问题了。

6、还可以使用jstat(Java命令学习系列（四）——jstat)来查看GC情况，看看是否有频繁FGC，然后再使用jmap(Java命令学习系列（三）——Jmap)来dump内存，查看是否存在内存泄露。

作者：HollisChuang
链接：
https://juejin.cn/post/6844903608371118094

Tags：服务器性能点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

美国VPS和英国VPS：地理位置对服务器性能的影响

在今天的数字时代，VPS已成为在线业务和网站托管的关键组成部分。然而，选择合适的VPS主机服务时，地理位置通常被忽视，尽管它对服务器性能有着重要的影响。本文将探讨美国VPS和英...【详细内容】

2024-01-26　　Search: 服务器性能点击:(56)　　评论:(0)　　加入收藏

如何解决Linux 服务器性能问题？

Linux 服务器以其稳定性和可靠性而闻名，但与任何系统一样，它们有时也会遇到性能问题。当您的 Linux 服务器的性能开始下降时，必须及时解决问题以确保应用程序和服务的顺利运行...【详细内容】

2023-12-14　　Search: 服务器性能点击:(241)　　评论:(0)　　加入收藏

服务器性能优化的思路和工具分享

一、系统资源通常服务器的性能会卡在四个地方：CPU、内存、网络IO和磁盘IO。二、性能调优2.1 CPU一个好的架构，服务器的CPU总消耗总是平均的分布在各个cpu上，CPU的消耗在70%左右...【详细内容】

2023-07-25　　Search: 服务器性能点击:(238)　　评论:(0)　　加入收藏

服务器性能指标——负载（Load）分析及问题排查

平常的工作中，在衡量服务器的性能时，经常会涉及到几个指标，load、cpu、mem、qps、rt等。每个指标都有其独特的意义，很多时候在线上出现问题时，往往会伴随着某些指标的异常。大部...【详细内容】

2022-04-11　　Search: 服务器性能点击:(642)　　评论:(0)　　加入收藏

PHP+NGINX服务器性能安全优化

本文适用于 php7.4+NGINX环境，适用于运行 wordpress 环境一、更新服务器sudo apt update二、命令快捷缩写设置通过ssh登录服务器，在用户目录下执行以下命令sudo nano .bashrca...【详细内容】

2021-08-31　　Search: 服务器性能点击:(399)　　评论:(0)　　加入收藏

CENTOS自动巡检服务器性能指标

服务器性能指标检查分为：检查开始时间: CPU信息: CPU占用TOP 10进程: 内存占用TOP 10进程: 内存信息: TCP连结数: 查看挂载点: 读取磁盘IO信息: 检查网络稳定性: 读取网卡流...【详细内容】

2021-01-05　　Search: 服务器性能点击:(589)　　评论:(0)　　加入收藏

linux 服务器性能分析及优化的一些方法

1. 首先查看网络连接数netstat -an或者 ss -s 进行统计，如果带上-p参数的话当连接数比较多的时候就会比较慢或者查看系统：/proc/net/sockstat:sockets: used 160TCP: inuse 0...【详细内容】

2019-12-17　　Search: 服务器性能点击:(467)　　评论:(0)　　加入收藏

十款Web服务器性能压力测试工具

一、http_load 程序非常小，解压后也不到100Khttp_load以并行复用的方式运行，用以测试web服务器的吞吐量与负载。但是它不同于大多数压力测试工具，它可以以一个单一的进程运行，一...【详细内容】

2019-11-21　　Search: 服务器性能点击:(483)　　评论:(0)　　加入收藏

一分钟内检查Linux服务器性能？

这个命令可以快速查看机器的负载情况。在Linux系统中，这些数据表示等待CPU资源的进程和阻塞在不可中断IO进程（进程状态为D）的数量。这些数据可以让我们对系统资源使用有一个宏观的了解。...【详细内容】

2019-07-30　　Search: 服务器性能点击:(1037)　　评论:(0)　　加入收藏

如何诊断云服务器性能

云服务器作为新兴的业务承载系统，与传统系统存在本质差异。由于缺乏深入的了解，很多IT运维管理人员可以快速诊断传统系统的问题，却无法诊断基于云服务器系统问题，例如您的云服务...【详细内容】

2019-07-05　　Search: 服务器性能点击:(1135)　　评论:(0)　　加入收藏

▌简易百科推荐

为什么Nginx被称为“反向”代理呢？

Nginx（发音为"engine-x"）是一款高性能、轻量级的开源Web服务器软件，也可用作反向代理服务器、负载均衡器和HTTP缓存。Nginx之所以有被称为“反向”代理，是因为它充当客户端设备...【详细内容】

2024-02-01　　coderidea　　微信公众号　　Tags:Nginx 　点击:(61)　　评论:(0)　　加入收藏

哪种服务器操作系统更好呢？

在当今的IT世界中，服务器操作系统扮演着至关重要的角色。它们是确保服务器能够高效、安全地运行的关键因素。然而，对于许多人来说，服务器操作系统的种类和特点可能是一个复杂的...【详细内容】

2024-01-30　　　　简易百科　　Tags:操作系统　点击:(80)　　评论:(0)　　加入收藏

什么是VPS服务器

VPS服务器是一种虚拟化技术，它将一台物理服务器划分为多个虚拟的独立服务器，每个虚拟服务器都可以拥有自己的操作系统、运行环境、应用程序等。这种技术使得每个虚拟服务器可...【详细内容】

2024-01-30　　　　简易百科　　Tags:VPS服务器　点击:(75)　　评论:(0)　　加入收藏

VPS服务器下载速度慢?这五招帮你提速

VPS服务器下载速度慢可能会让用户感到沮丧，尤其是对于需要大量下载和上传数据的用户。幸运的是，有一些方法可以帮助您提高VPS服务器的下载速度，使您的在线体验更加顺畅。在本文...【详细内容】

2024-01-30　　IDC行业观察者　　　　Tags:VPS服务器　点击:(60)　　评论:(0)　　加入收藏

美国VPS和英国VPS：地理位置对服务器性能的影响

2024-01-26　　IDC行业观察者　　　　Tags:服务器　点击:(56)　　评论:(0)　　加入收藏

如何判断服务器所需带宽：基于业务需求和流量模式的关键考量

在选择服务器时，带宽是一个重要的考虑因素。带宽的大小直接影响到网站的加载速度和用户的访问体验。那么，如何判断服务器需要多大的带宽呢?本文将为你揭示这一关键问题的答案...【详细内容】

2024-01-26　　源库科技　　　　Tags:服务器　点击:(80)　　评论:(0)　　加入收藏

服务器内存空间及IO操作原理解析

服务器的内存空间分为内核空间和用户空间，而我们编写的程序通常在用户空间中运行。在进行读写操作时，我们直接操作的是用户缓冲区，而用户缓冲区的内容来自于内核缓冲区。这种内...【详细内容】

2024-01-23　　王建立　　　　Tags:服务器　点击:(46)　　评论:(0)　　加入收藏

如何在Java环境中安装Nginx？

1. 下载Nginx：首先，前往Nginx官方网站（https://nginx.org/en/download.html）下载新版本的Nginx。选择适合您操作系统的版本，通常有Windows、Linux和Mac等不同操作系统的版本可供...【详细内容】

2024-01-22　　敲代码的小动　　　　Tags:Nginx 　点击:(71)　　评论:(0)　　加入收藏

服务器证书和SSL证书有啥区别？

在互联网经济时代，随着越来越多的信息以及合作都是从企业官网开始的，因此绝大多数企业都会为自己的网站配置SSL证书，以提高安全性。在接触SSL证书时，也有很多人称之为服务器证书...【详细内容】

2024-01-10　　安信SSL证书　　　　Tags:服务器证书　点击:(66)　　评论:(0)　　加入收藏

宝塔面板怎样部署java项目？

宝塔面板怎样部署java项目？在使用宝塔面板部署Java项目之前，需要确保已经安装了Java Development Kit (JDK)。接下来，将介绍如何使用宝塔面板来部署Java项目的步骤。步骤一：安装...【详细内容】

2024-01-09　　西部数码　　　　Tags:宝塔面板　点击:(123)　　评论:(0)　　加入收藏

推荐资讯

Create 2024百度AI开	“刘强东”当主播，扶得
AI圈公开的秘密：天下模	聚焦“一房二卖”等问
今年买二手房最划算？70	周鸿祎力挺手机支架
Android 15 有望引入	全球首个AI程序员Devi