最近公司网络环境发生一次异常状况,这里和大家分享一下本人当时的排障思路和步骤,和大家一起探讨一下。
网络拓扑结构大致如下:
故障现象:
电脑网络访问非常慢,打开网页显示很慢。
排障步骤:
1. 电脑主机ping外网地址,延迟非常大,ping 192.168.10.254网关地址,延迟也非常大,大于1000ms。
2.出口防火墙上ping外网地址延迟正常。
3.这时基本可以锁定是局域网内部哪里出现了问题,而不是互联网链路的原因。再继续ping局域网其他主机延迟正常,ping IPS设备延迟也正常。
4.此时可以定位到是IPS或者防火墙哪里出现了问题,登录到IPS上发现IPS CPU状态非常高,达到90%以上,接口状态也提示有丢包现象。
5.怀疑是否存在攻击现象,查看IPS告警中心入侵防护事件没有发现可疑攻击现象,继续查看IPS状态,查看流量状态正常,当查看到IP会话数时发现了异常,一台主机产生了大量的会话数,达到1w+的会话,高于这台IPS可支持的最大会话数了,从而导致IPS运行不稳定,CPU飙升,从而经过IPS的网络流量产生延迟丢包现象。
6.最后根据IPS上监控的IP会话数,把产生大量异常会话的主机找到并且断网后,一切立刻都恢复正常了。
其实,这个网络问题解决很简单,因为我们的网络环境中有IPS和防火墙这种专业的网络安全设备,当发现有异常情况时,第一时间就可以登录到这些设备上,一般都可以查看到一些蛛丝马迹,然后顺藤摸瓜解决问题。
但是,如果没有这种网络安全设备,发生网络异常时难道只能两眼一抹黑了,这时候其实我们可以依靠一些工具来解决问题,强烈推荐的就是Wiresharke这款网络抓包分析工具了,网络问题其实它都源于数据包层面,我们只需进入到数据包层次,就没有任何东西能逃出我们的视线范围,我们只需通过Wiresharke工具捕获网络中传输的数据包加以分析,基本上就可以判定问题所在了,比如这次是大量会话引起的网络故障,我们就可以通过Wiresharke信息统计功能,哪个IP地址产生了大量会话一目了然。