1. 首先查看网络连接数
netstat -an
或者 ss -s 进行统计,如果带上-p参数的话当连接数比较多的时候就会比较慢
或者查看系统:
/proc/net/sockstat:
sockets: used 160 TCP: inuse 0 orphan 0 tw 0 alloc 4 mem 0 UDP: inuse 0 mem 1 UDPLITE: inuse 0 RAW: inuse 0 FRAG: inuse 0 memory 0
2. 系统dmesg提示 socket out of memory
首先查看系统socket使用了多少,参考1.
3. 查看系统给tcp分配的内存大小限制
cat /proc/sys/net/ipv4/tcp_rmem #tcp read buffer bytes
4096 87380 629145
第一项是buffer最小4096字节,第二项是默认值87380字节,第三项是read buffer 最大限制629145 字节
cat /proc/sys/net/ipv4/tcp_wmem #tcp write buffer bytes write buffer与read buffer类似 cat /proc/sys/net/ipv4/tcp_mem #tcp memory pages 21498 28665 42996
第一个值是内存使用的下限;第二个值是内存压力模式开始对缓冲区使用应用压力的上限;第三个值是内存使用的上限。在这个层次上可以将报文丢弃,从而减少对内存的使用socket out of memory。可以结合sockstat里的统计数据分析tcp使用内存是否超过了限制,注意这里单位是页,查看页大小getconf PAGESIZE
另外可以查看tcp读写发送窗口默认值:
/proc/sys/net/core/rmem_default /proc/sys/net/core/rmem_max /proc/sys/net/core/wmem_default /proc/sys/net/core/wmem_max
另外socket out of memory 也有可能是孤儿socket过多导致的。
4. 内核配置最大的孤儿socket数:
cat /proc/sys/net/ipv4/max_orphans
4096
查看孤儿socket
cat /proc/net/sockstat sockets: used 403 TCP: inuse 4 orphan 0 tw 0 alloc 10 mem 1 UDP: inuse 12 mem 7 UDPLITE: inuse 0 RAW: infuse 0 FRAG: inuse 0 memory 0
注意这里的orphan 往往会被内核x2 或者x4,所以有时候看到这里的orphan数比较小,但是却有out of socket memory的提示,有可能就是这个放大倍数导致的。关于孤儿socket 可以参考:孤儿socket
5. 一个tcp socket占用多大内存
首先socket包括本地ip、端口,对端ip、端口;发送、接收缓冲区等(跟配置有关)。
如果按照上面最小的读写缓冲区来算那么一个socket大概占用8K的内存。
如果单从一个socket占用的内存来看,一个8GB的内存,一般情况下可以承受100万得sock长连接,前提是系统文件句柄要调大
tcp内存最大也要进行调整。
tcp内核参数调优
tcp参数调优
6. 查看系统总共使用了多少文件描述符
cat /proc/sys/fs/file-nr 4096 0 9000
第一项就是当前系统已经打开的文件句柄(包括socket ),最后一项是整个系统最大可以打开的文件句柄数
cat /proc/sys/fs/file-max
系统最大的文件句柄数
cat /proc/sys/fs/nr_open
1048576
系统配置的单个进程最大可以打开的文件句柄数
7.dmesg or dmesg -T
查看内核的错误信息,比如tcp链接太多,句柄不够用,内存不足导致某些进程被kill掉
8. 使用slabtop 查看内核内存分配
IOStat -d 1 10 -x
9. 查看系统统计
vmstat -n 1 10
可以通过该命令动态观察swap内存是否在发生变化,如果一直在增长,那么可以初步断定 系统内存不够用。
当cache、buffer占用大量内存是可以通过调整内核参数释放改内存:
$sync (必须要先执行)
$ echo “3” > /proc/sys/vm/drop_caches (该值默认是0,不释放)
10. tcp keepalive time 如果想开启tcp 半打开状态的连接的回收,单单配置keep alive是不够的,需要在程序中调用setsockopt 开启探测功能,否则即使系统侧配置了keepalive time也是不够的。
11. top 然后按数字1,看各个cpu是否存在不均衡的情况,如果是则看下系统软中断一列的cpu是否使用过高,如果是则进一步确认是不是网卡软中断引起的:
Fig 1:各个cpu使用情况
下图是系统中断在各个cpu的分布,通过分析上下两个图就可以知道是不是因为网卡导致软中断过高,如果是网卡收发包软中断过高则需要进行多网卡队列配置优化或者是收发包软中断优化(RPS/RFS)
查看网卡是否支持多网卡队列可以通过以下命令:
ethtool -L eth0
RPS/RFS 优化配置(原理就是根据四元组进行hash选则对应的CPU进行CPU负载均衡、提升CPU缓存命中率):
RPS:
RPS指定哪些接收队列需要通过rps平均到配置的cpu列表上。
/sys/class/net/(dev)/queues/rx-(n)/rps_cpus
RFS:
每个队列的数据流表总数可以通过下面的参数来设置:
该值设置成rps_sock_flow_entries/N,其中N表示设备的接收队列数量。
/sys/class/net/(dev)/queues/rx-(n)/rps_flow_cnt
全局数据流表(rps_sock_flow_table)的总数,红帽是建议设置成32768,一般设置成最大并发链接数量
/proc/sys/net/core/rps_sock_flow_entries