寻计问策再谋网络故障排查

时间:2022-10-29 12:02:51

寻计问策再谋网络故障排查

无论多大规模的网络,持续运行一段时间后,总会发生这样或那样的网络故障,如果不能及时排查网络故障,那么局域网的运行稳定性就会受到显著影响;为了保证网络能够始终运行稳定,我们有必要加强对网络故障的分析与研究。由于网络故障具有复杂性、多样性、突发性等特点,这对网络管理员的技术水平、理论功底、总结处理能力提出了更高的要求;网络管理员只有在平时加强学习、勤于总结,多了解常见网络故障的现象,熟悉网络故障的类型,掌握故障排查的基本方法,才能在遇到网络故障时,快速拿出应对措施、高效解决网络故障。

做好准备工作

俗话说“磨刀不误砍材功”,要想高效率地解决网络故障现象,就必须认真做好故障排查之前的各项准备工作,只有这样才能在故障发生时,做到有的放矢。

熟悉组网结构

熟悉局域网网络组网结构,了解网络中重要设备的运行性能,弄请网络客户端系统工作状态,接触使用阿络的每位用户。要想成为一名合格的网络管理人员,我们应该弄清楚局域网中有多少台客户端系统,有多少台网络设备,每台客户端系统都安装了些什么操作系统,每台网络设备相互之间有什么联系,用户对客户端系统的熟悉程度有多深,以及他们平时的使用习惯有哪些等等,只有对网络的全局信息有个大概的了解,才能根据故障现象,快速作出判断,并在很短的时间内拿出解决方案出来。

做好网络记录

要是一个网络管理员到了新单位工作后,他对该单位网络的了解程度肯定是一片空白,在这种情形下遇到网络故障时,他肯定无法快速拿出解决方案。为此,当我们接收一个新的网络时,首先要做的工作就是花一定的时间,来熟悉、了解网络的运行状态,并做好网络的日志记录,以备日后排查故障时使用。网络记录的内容,主要包括组网拓扑图(如图1所示)、设备操作手册、参数配置说明、系统安装文档、用户分布图等;此外,我们平时在管理维护网络的时候,对网络进行的每一次改动,都要在网络记录中及时体现出来,每一次对网络故障的发现、排查、解决以及遗留问题,都要进行详细的记录,确保日后遇到相同的网络故障时,我们能从网络记录中得到借鉴和启发。

定期查看设备

对于一个规模较大的网络来说,我们应该定期检查网络设备和物理线路。在检查的过程中,应该为重要网络设备的每个端口贴上标签(如图2所示),同时在每条物理线路两端做上标记,如果日后调整了线路或端口时,必须记得及时修改标签内容。以后根据设备上的标签内容,我们就可以快速定位故障位置,同时避免网络发生环路现象了。显然,对设备或网线进行标识,有利于日后管理维护网络时,发现网络故障位置和解决故障现象。

熟悉故障类型

由于网络故障现象比较多,如果能够对它们进行适当分类总结,日后遇到相同现象时,我们就能快速找到应对办法了。在这里,我们将网络故障分为两种类型,一种是位置类的,一种是性质类的。

对于位置类的网络故障现象,我们可以分为网络设备类故障、客户机故障、物理线路故障这几种。网络设备类故障,主要包括两种情况,一是网络设备配置故障,比方说,交换机硬件质量正常,不过某个交换端口的错误要是太多,交换机后台系统可能会自动关闭该端口的工作状态,从连接该端口的客户端应用程序来看,这和线路故障现象十分相似;网络端口配置错误,例如端口IP地址和MAC绑定不正确,端口工作模式不匹配,端口VLAN划分不正确等等,都会造成客户端系统无法正常访问网络。二是网络没备本身出现硬件问题,例如路由器的电源输入模块出现问题,造成设备无法接通电源,交换机端口的光纤模块损坏,造成物理线路出现断路等等。

对于客户机故障来说,主要就是它的软件故障,通常客户机发生的硬件故障,我们都能直观地看出。而客户机的软件故障却十分复杂,比方说,客户机的IP地址要是被人抢用,就会发生地址冲突现象(如图3所示),这会让客户机不能正常上网;如果客户机的上网参数没有配置正确,也会造成它访问网络失败;如果客户机启用了动态IP地址方式上网,但网络中突然新出现了一个没有授权的DHCP服务器时,那么它就可能会出现一会儿能上网、一会儿不能上网的奇怪现象。此外,DNS服务器IP地址的配置不当,网络掩码参数的设置不正确,防火墙的主动拦截等,郜会造成客户机上网出现失败故障。如果客户机自身存在硬件问题,也会造成网络连接故障,此时我们可以借助类似CiscoWorks这样的专业工具,来扫描分析一下本地系统中究竟有哪些设备发生了损坏。不少专业工具还支持故障报警甚至故障预警功能,例如可以报警网卡设备的指针有没有被磨损,网卡殴备是否发生了硬件损坏等等。要是通过了专业工具的硬件检查后,网络故障还无法被解决的话,那么我们不妨尝试通过设备替代法,来排除交换机、网络线缆和接口因素,逐步缩小故障排查范围。

物理线路故障主要表现在二个方面,一是网络线路由于受到挤压或在施工布线的时候发生了断路现象;二是网络线头接触不牢靠,要是网络线缆的插头制作不牢,或者频繁进行插拨操作,会造成网线无法与网卡设备或交换端口紧密接触;三是网络线路受到外界干扰,例如网络线缆内部的芯号线不小心被短接,或者网络线缆与存在强磁场的电源线、通信线紧密缠绕在一起,甚至网络线缆的走线距离过长,都会造成上网信号在传输过程中发送丢失或衰减。在排查物理线路连接故障时,我们往往需要借助专业的线缆测试工具,才能准确地定位故障位置。当自己怀疑物理线缆存在问题时,可以使用工作状态正常的网络线缆来连接故障客户端系统,要是故障现象立即消失,那就说明问题是由网络线缆或连接接口引起的,此时再更换连接端口,进一步判断网络故障是出在连接端口上还是出在物理线缆上。

对于性质类的网络故障现象,我们一般将它们分成软性故障和硬性故障。其中,软性故障主要有三种类型,一是网络设备自身负载能力有限,比方说,当局域网中的服务器、交换机、防火墙连接的负载太多时,它们对客户的上网连接请求响应能力不足,这样就可能造成网络故障;任实际管理、维护网络的过程中,我们发现有很多无法访问网络的故障,其实都是由于网络设备无法处理更多的上刚请求引起的,或者当网络连接勉强成功,但服务器或其他网络设备却认为超时而自动断开了网络连接。二是参数配置错误,比方说,路由配置不正确、VLAN划分不正确、网络驱动安装不正确、网络软件使用不 正确、访问连接控制不正确、IP地址分配不正确、DHCP服务器选择不正确等等,这些都容易造成网络连接出现不正常现象。三是没有重启系统让配置生效,例如,很多网络设备的参数被调整过之后,只有将设备重新启动才能让修改的参数生效,但很多时候网络管理员忘记了重启系统,在日后重新启动对应网络设备系统时,网络管理员说不定又忘记了对目标网络设备的参数更改。

硬性故障主要指的是网络设备的硬件电气性能发生变化,比方说,网络设备输入电源意外断电,交换机、路由器等设备的芯片烧坏,连接线缆不小心被折断,网络设备由于散热不良出现死机等等,这些因素都属于硬件电气性能发生变化,当出现这类变化时,网络故障现象也会随时出现。

排查认真仔细

在熟悉了网络环境,掌握了常见故障的排除方法之后,我们日后遇到网络故障来临时,就能做到从容应对。具体来说,在诊断网络故障时,我们一定要做到认真、仔细。

善于勘察现场

当发生网络故障时,我们应该尽可能地从客户机的操作系统中,或者是网络设备的报警信息以及错误日志中(如图4所示),找到与网络故障现象有关的蛛丝马迹;同时尽量多收集一些同类故障的信息,判断局域网中其他客户端系统或类似状态的网络设备有没有发生相同的故障现象。之后,依照自己的经验进行分析、推测,大概判断出网络故障产生的原因,并依照该故障原因,尝试做一些调整措施,同时观察调整效果,根据效果的好坏,我们可能需要反复重复多次调整措施,直到出现理想的效果为止。在这个不断调整的过程中,我们将不断缩小故障点的排查范围,这个过程往往要求我们需要具有一定的判断分析能力,当然该能力也是在长期排查故障的过程中逐步形成和积累起来的。如果在勘察现场的过程中,我们能够充分利用好正确的设备标签、完善的网络记录、更新的日志内容,将会快速地找到故障原因,提高故障排查效率。

善于前后比较

在正式判断网络故障产生原因之前,我们最好对最近的网络配置、连接线路、应用软件等各个方面的调整变动,进行一下梳理和查找,因为对网络的任何调整和变化,都可能会产生意想不到的网络故障。要是确认最近真的进行调整变动时,我们不妨先尝试着将网络还原到变动之前的工作状态,或者与没有进行变动、调整的设备进行前后比较,看看变动前后的网络设备,是否存在相同的故障现象。比方说,如果对一个网络设备的调整,需要经过重新启动操作才能发挥作用,而当时我们并没有立即对网络设备执行重新启动操作,那么这个变动可能就会给日后的网络运行带来麻烦;要是我们没有及时记录这个变动,日后其他网络管理员在排查网络故障的时候,就很难找到故障原因,即使能够找到故障原因,也可能会多走许多弯路。

善于借助外力

如果上面的努力没有能够解决好网络故障,那么我们可以按照网络七层协议标准,从上到下或从下到上地分析网络故障。所谓从上到下,就是利用专业工具从应用层协议抓捕数据包,对数据包的流量大小进行分析、统计,从而获取对故障解决有帮助的信息;所谓从下到上,就是利用专业工具从物理层开始监控,一直监控到网络应用层,例如可以利用Windows系统自带的Tracert、Ping、Netstat、Ipconfig等工具来测试、监控网络(如图5所示),也可以利用专业的Sniff工具来自动诊断网络故障。

做好跟进措施

当我们费了九牛二虎之力成功解决了网络故障后,常常会下意识认为以后再次碰到这类故障时,就能迅速找到应对措施了;不过,实际上时间长了后,多数人往往会将以前的排查过程忘得一干二净,显然再次排查同类故障时,还得要从头开始。为此,我们在解决好某个故障现象后,还应该做好跟进措施,及时总结、记录。

完善网络记录

为了便于解决同类故障。我们应该在成功解决网络故障后,将该故障的发现、排查,解决等细节,详细地记录到网络故障报告中,也可以写入到专门的更新文档中,甚至可以将记录保存到网络日志中;如果在解决网络故障的过程中,对网络的某些位置或设备进行了变动,一定要将这些变动内容详细地记录到故障报告、更新文档或网络日志中。日后,当同类故障现象发生时,我们只要简单地查看网络记录,就能快速定位故障原因。拿出应对措施出来了。

及时通知用户

如果网络故障与客户端系统用户的操作习惯或行为有关时,我们一定要及时通知网络用户,提醒他下次该怎样操作,才能避免网络故障;或者告诉他下次遇到相同的网络故障时,该采取什么样的措施来解决。

事实证明,在排查网络故障之前,准备工作做得越充分,在解决网络故障过程中,总结记录工作做得越详细,那么日后我们就能越快速、越准确地发现新的故障、解决新的问题。

上一篇:Lenovo M7650DNF/M7450F激光多功能一体机 下一篇:定位高密度计算!等