您当前的位置:首页 > 电脑百科 > 网络技术 > 网络技术

那些网络中容易出现的故障,工程师精细分享!

时间:2020-05-06 13:39:31  来源:  作者:

运维人最怕网络出故障。先抛开一些闲话不谈,网络故障从大体上来讲,有下面几种情况:

那些网络中容易出现的故障,工程师精细分享!

 

 

硬件问题

 

既然网络设备是一台机器,就有可能出现“疲劳”,从而导致各种各样的硬件故障出现。硬件的故障,一般有下面几种情况。

 

第一种是造成整机停机的故障。

 

停机属于重大安全问题,造成停机的原因一般有以下几点:

 

(1)设备电源模块损坏,常见于一些单电源的盒式交换机;

(2)设备在搬移过程中,因为碰撞,摔打造成的主板芯片受损;

(3)一些使用超年限的设备,在重启的时候出现问题,起不来了;

(4)因为机房环境不好,设备温度过高造成“假死”的现象。

 

设备停机属于重大安全问题,也是特别紧急的事件,需要马上更换设备。即使是假死,都要把备机准备好了再操作,防止假死的设备重启时真的挂了。

 

第二种是设备的模块、板卡损坏,不至于造成停机,但是引起了单点故障的隐患或者部分网络业务中断。

 

比如,Cisco 6509一般都会配备两款引擎板卡,如果其中一块引擎板卡损坏了,不至于造成该交换机停机,也不会导致网络业务中断。但如果不及时换掉这块坏引擎板,就造成了这台Cisco 6509单引擎运行,这肯定就是单点故障的隐患。如果这台Cisco 6509坏掉的是一块48口的千兆电口板呢?那肯定连接在这块电口板上的业务全部中断了。这种情况,就看根据整体的网络业务有没有受到影响来确定紧急程度了。对于客户来说,坏一个板卡也是需要立即更换的。

第三种情况是,设备上某个小部件损坏。

 

比如说一台H3C 12508上插了6块电源,其中坏了那么一块;再或者是4个风扇,停了其中一个。这种情况看起来对这台H3C 12508的正常运转暂时没啥影响,在处理的时候,也不是什么紧急事件了。那这种情况,就要给客户说明情况,根据要求来决定什么时候进行处理。

那些网络中容易出现的故障,工程师精细分享!

 


那些网络中容易出现的故障,工程师精细分享!

 

 

软件问题

 

软件问题一般分为操作系统自身BUG,还有人为因素导致的操作系统拷贝不完整造成的一系列问题。操作系统本来是一类软件,或多或少都会有一些BUG,可能体现在一些功能上面。

 

比较经典的一个BUG就是H3C R6600系列,出厂自带的操作系统Comware v7.1.059, ESS 0322,在配置BFD和BGP联动的时候(对端是Cisco),BFD就不生效,需要升级为v7.1.064, Release 7618才可以。这也就是为什么说官网经常对一些设备的操作系统软件提供一些新版本的软件包或者补丁包。

 

人为因素则是因为在对设备做软件升级的时候,因为对设备操作系统软件.bin文件拷贝不完整导致设备重启以后就起不来了。导致这个问题的原因一般都是在拷贝软件到设备的Flash里时,没有仔细核对拷贝后文件的大小。

那些网络中容易出现的故障,工程师精细分享!

 

 

实施造成的问题

 

实施造成故障,这也算是一种比较常见的问题。网络割接实施本来就有风险。如果是操作人员经验不足或者技艺不精,对割接的风险评估不足,前期的测试准备不充分,就有可能在网络割接的时候不仅没能对网络完成优化改造,反而带来一些新的故障。

 

一个很典型的例子,就是思科的设备换成华为或者H3C。比如拿一个拓扑图来说:

那些网络中容易出现的故障,工程师精细分享!

 


那些网络中容易出现的故障,工程师精细分享!

 

第一个风险点就是私有协议要改通用协议。

 

之前的Cisco 4503E使用的网关冗余协议是HSRP,换成华为就要换成VRRP。在这里要注意的就是,HSRP的组播地址是224.0.0.2,VRRP的组播地址是224.0.0.18,这里是HSRP和VRRP最关键的一个差异点。所以,HSRP改VRRP,首先就要检查Cisco 4503E上的所有VLAN接口(SVI),看看VLAN接口下是否挂了ACL,这个ACL下必须增加放行224.0.0.18。

那些网络中容易出现的故障,工程师精细分享!

 

随后的风险点,就是这个链路捆绑。

 

你可能会说,LACP是通用协议,华为的设备也支持啊!但是你要知道的是,思科的链路捆绑是Port-Channel,华为是Eth-Trunk。华为Eth-Trunk捆绑的默认是手工模式,也不是LACP,所以,华为这边需要在配置Eth-Trunk的时候,加一条“mode lacp”命令。

那些网络中容易出现的故障,工程师精细分享!

 

 

还有呢,就是路由协议这边的风险了。

可能你也会认为,OSPF是通用协议,静态路由更是几乎所有三层设备都能支持,又能有什么问题呢?

 

在这个例子中,两台Cisco 4503E通过OSPF收取路由,再利用静态路由进行分流。对于Cisco设备来说,OSPF路由的AD值是110,静态路由的AD值默认是1。而华为设备,OSPF内部路由Pref值(类似于Cisco的AD值)是10,OSPF外部路由的Pref值是150,静态路由的Pref值是60。所以这里可以看见:对于Cisco设备,静态路由优先级高于OSPF;而华为设备,OSPF内部路由的优先级却高于静态路由。所以为了防止思科换华为以后分流失效,所以在华为设备上配置静态路由时,将pref值强行改为1。

 

如果是多路由协议混跑的骨干网中,思科设备换华为或H3C后,有时候也要在把华为或H3C上,把路由的Prefer值强行改为与Cisco一致。

 

当然,这里说的风险都是从宏观上就能发现的一些风险,还有一些小细节也可能是风险点。比如光模块能兼容Cisco,但不一定能兼容华为这些问题,能考虑到哪些就考虑到哪些,考虑得越细致,割接时出问题的概率就越低。

 

用户造成的问题

 

这里说的用户指的都是一些非专业用户。很多运维人员都说:不怕这个用户一点都不懂,就怕这个用户是个似懂不懂的。有时候在办公室里面悄悄接一个HUB,然后这个HUB上接满了网线,一不小心就把网线的两头就插在同一个HUB上造成环路了;还有就是有些人不知道从哪里听来的“旁门左道”,网速稍微一慢就乱改IP,认为一改IP上网就快了,结果搞得IP冲突。还有就是乱接U盘,乱下载软件,整一些ARP相关的病毒,弄得一个网段内的主机全部都掉线。

 

设计缺陷导致的故障

 

设计的缺陷分为以下几种情况:

 

IP地址规划问题。

 

任何一个企业,网络规模都是从小到大的,在最初的时候,因为用户数量少,IP地址充足,所以在规划IP地址的时候都比较“奔放”。到了后期,用户数量逐渐增加,业务分类也越来越多,IP地址的管理也会变得越来越复杂。如果在最初的时候就没有对IP地址有一个较好的规划,就很容易在后期导致IP不够用或者是把两段IP地址规划到了不同的站点里面。

一些人员技艺不精的问题。

 

比如设计二层网络的时候,让生成树的计算拓扑图变得比较复杂,使得STP无法收敛;还有就是OSPF的区域规划欠考虑,路由协议也是随心所欲的用,设备上重分发很多,这些都会大大提升网络中出故障的概率。



Tags:网络 故障   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com),我们将及时更正、删除,谢谢。
▌相关推荐
运维人最怕网络出故障。先抛开一些闲话不谈,网络故障从大体上来讲,有下面几种情况: 硬件问题 既然网络设备是一台机器,就有可能出现“疲劳”,从而导致各种各样的硬件故障出现。...【详细内容】
2020-05-06  Tags: 网络 故障  点击:(66)  评论:(0)  加入收藏
▌简易百科推荐
写一个shell获取本机ip地址、网关地址以及dns信息。经常会遇到取本机ip、网关、dns地址,windows一个命令ipconfig /all全部获取到,但linux系统却并非如此。linux系统都自带ifc...【详细内容】
2021-12-27  K佬食古    Tags:shell   点击:(2)  评论:(0)  加入收藏
步骤1、配置 /etc/sysconfig/network-scripts/ifcfg-eth0 里的文件。it动力的CentOS下的ifcfg-eth0的配置详情:[root@localhost ~]# vim /etc/sysconfig/network-scripts/ifc...【详细内容】
2021-12-24  忆梦如风    Tags:网卡   点击:(10)  评论:(0)  加入收藏
1、查找当前目录下所有以.tar结尾的文件然后移动到指定目录find . -name “*.tar” -execmv {}./backup/ ;注解:find –name 主要用于查找某个文件名字,-exec 、xargs可...【详细内容】
2021-12-17  郭主任    Tags:运维   点击:(20)  评论:(0)  加入收藏
对于经常上网的朋友来说,除了手机购物上网,pc端玩网页游戏还是很多小伙伴首选的,但是有时候明明宽带链接上了,打开浏览器却出现上不了网的现象,下面小编要来跟大家说说电脑有网络...【详细内容】
2021-12-16  小白系统    Tags:网页无法打开   点击:(28)  评论:(0)  加入收藏
在访问像github、gitlab这样的外国网站时,很有可能会出现页面加载不出来或找不到页面的错误。这时候有的朋友就会以为是网络的问题,于是把Wifi断掉连上自己手机的热点,结果却还...【详细内容】
2021-12-15  启施技术IT狼叔    Tags:外网   点击:(16)  评论:(0)  加入收藏
网络地址来源:获取公网IP地址 https://ipip.yy.com/get_ip_info.phphttp://pv.sohu.com/cityjson?ie=utf-8http://www.ip168.com/json.do?view=myipaddress...【详细内容】
2021-12-15  韦廷华12    Tags:外网ip   点击:(15)  评论:(0)  加入收藏
准备好软件IPOP、用ENSP模拟一下华为交换机 启动交换机 <Huawei>sysEnter system view, return user view with Ctrl+Z.[Huawei]sysname FTPClient[FTPClient]interface vla...【详细内容】
2021-12-15  思源Edward    Tags:交换机   点击:(24)  评论:(0)  加入收藏
我们经常用到netstat命令查看主机连接状况,包括连接ip、端口、状态等,今天就练习下shell分析netsat结果。描述假设netstat命令运行的结果我们存储在nowcoder.txt里,格式如下:Pro...【详细内容】
2021-12-14  K佬食古    Tags:netstat   点击:(19)  评论:(0)  加入收藏
什么是滑动窗口?窗口是操作系统开辟的一块缓存空间,发送方在收到接收方ACK应答之前,必须在缓冲区保留已发送的数据,如果按期收到确认应答,数据就可以从缓冲区移除。什么是滑动窗...【详细内容】
2021-12-14  DifferentJava    Tags:TCP   点击:(30)  评论:(0)  加入收藏
概述日常管理华为路由设备过程中,难为会忘记设备登录密码,那么该如何重置设备登录密码吗?本期文章将全面向各位小伙伴总结分享。重置华为设备登录密码思路先行 采用console登录...【详细内容】
2021-12-10  onme0    Tags:   点击:(27)  评论:(0)  加入收藏
最新更新
栏目热门
栏目头条