故障分析的数字电视论文

时间:2022-05-13 10:10:56

故障分析的数字电视论文

1遥控监测站点的特点及维护难点

1.1早期监测设备运行时间过长监测站点中2007年建设的站点占所有监测站点的半数以上,设备到现在已运行7年,远远超过电子设备平均寿命,监测主机、解调/解扰设备、监测板卡等硬件持续老化,突发性故障多发,导致故障率不断升高而且故障点分散性、随机性强,维护难度大。

1.2模拟及部分数字监测站点设备架构落后通过图1可以发现,所有模拟监测站点及部分数字监测站点采用半嵌入式结构,存储及各种软件运行均依赖监测主机,多个可能的故障环节集中到工控机本身,工控机自身的故障多发导致设备故障率升高,同时给故障分析及故障环节定位带来较大困难,不易进行有针对性的维护。

1.3多个厂商设备共存数字监测站点共采用三个生产厂家的设备,每个厂家的设备架构和组成都不一样,底层运行协议及系统软件均不同,虽然接口协议都符合总局标准及招标需求,但兼容性仍然不够理想,增加了维护难度。

2常见故障分析及故障处理流程

根据监测站点的特点及日常维护工作总结,常见故障现象主要分为三大类,即网络故障、软件故障、硬件故障。

2.1网络故障

2.1.1交换机及网线包括交换机电源故障、交换模块故障、交换机配置文件损坏及网线松动等,交换机及网线故障一般不易远程判断,主要依靠站点代维人员通过观察交换机指示灯及电源指示灯来判断,通常需要更换交换机。

2.1.2协议转换器江苏省广播电视监测网采用省广电干线网SDH进行三级组网,现仍有8个地市的区县采用协议转换器(光电转换)实现2M数据链路传输,协议转换器成对使用,市、县任何一端出现故障都会导致网络异常,多数网络故障都是由于协议转换器的电源适配器损坏,协转无法工作所致,需依靠站点代维人员辅助判断,一般要更换协转电源适配器。

2.1.3数据传输链路较少发生故障,如果排除上述两个环节,就要考虑SDH传输链路中某个环节出现问题,需联系各相关网络机房网管或技术员帮助排查解决。

2.2硬件设备类故障

2.2.1电源包括远程电源管理器故障、管理模块故障、解调器电源模块故障、场强仪电源模块故障、板卡箱电源模块故障、主机电源故障及电源线脱落等,在网络正常的情况下可通过PING命令初步判断各个设备运行状态,进行初步排除,结合远程维护软件和站点人员现场查看确定故障环节,日常维护中主要以电源管理器及解调器电源模块故障较多见。

2.2.2硬盘包括系统硬盘及阵列硬盘故障,系统硬盘故障及主机上的阵列硬盘一般远程无法直接判断,都会导致主机无法启动或自检失败,远程只能判断出该站点主机是否通讯正常,需站点代维人员协助判断。存储器硬盘故障可通过存储器管理口远程判断,存储器硬盘可以快递备品到站点并由站点人员代换,中心维护人员进行远程配置,主机内硬盘必须现场更换并重新安装系统或重做阵列,在维护中最耗时。

2.2.3风扇包括CPU风扇及机箱散热风扇故障,风扇故障一般是由于运行时间过长或机房环境较差导致风扇停转,风扇停转的直接影响就是CPU无法工作致主机无法启动或启动后短时间内又自动关机,机箱散热风扇故障极易导致硬盘、显卡、监测板卡等过热,设备寿命缩短。风扇故障需要现场拆机判断及更换。

2.2.4监测板卡包括主机内的模拟监测板卡及数字嵌入式板卡故障,主要是由于板卡工作时间过长导致老化损坏,驱动无法加载,视频无法采集,中心无法观看视频,可以通过远程控制软件访问主机查看板卡状态。模拟监测板卡单块损坏会导致所有板卡驱动无法加载,需及时更换,数字监测板卡每块对应一个IP流输出,个别板卡故障不影响基本监测。

2.3软件故障

2.3.1操作系统包括操作系统崩溃及系统假死,系统崩溃主要是由于系统运行时间过长或频繁断电重启造成系统内核文件损毁,常见于LINUX操作系统的监测站点;系统运行产生的系统垃圾文件及监测软件中的日志文件过大容易导致系统盘空间被占满,从而造成系统假死,多见于WINDOWS操作系统的监测站点。系统假死可以通过远程访问删除垃圾文件解决,系统崩溃需要到站点现场更换系统硬盘或重装操作系统。

2.3.2运行软件及配置文件包括软件运行异常及配置错误,软件运行异常主要由于运行时间过长导致的进程崩溃,看门狗软件异常导致的软件无法正常启动及软件版本不一致导致运行异常。配置错误及参数设置不正确容易造成软件通讯、解扰、解调、存储、上报等功能无法正常实现,两种故障情况都主要依靠远程调试及配置来解决。

2.4信号问题

2.4.1信号中断常见的原因主要有信号线在机房施工中图被挖断、信号线脱落、分配器故障、模拟停传等,信号中断情况并不多见,主要依靠站点维护人员代为排查并帮助恢复。

2.4.2授权及信源错误主要是智能卡授权到期未能及时续授权及信号源不是最新的用户端信号,需要和站点所在地网络公司进行协调解决。

2.5故障处理的一般流程故障的处理要求准确、高效、具体、有针对性,一般采通过用户反馈和每日一报获取故障信息及维护请求,维护人进行简单故障判断、故障具体环节判断和分析,根据判断情况,优先采用远程维护,无法解决的在确定故障环节的情况下制定完善的维护计划,做好现场维护及备件准备。详细故障处理流程见图3。

3几点维护经验

3.1充分发挥中心软件中的状态监控功能中心软件具有站点运行状态查看功能,该功能通过不同颜色表示不同的工作状态,根据状态可以初步判定站点异常情况。比如紫色表示软件工作异常,主机工作正常,可以通过远程访问来查看具体情况并远程重启计算机及软件等;红色表示主机通讯异常,无法上传数据,在网络和远程电源管理器正常的情况下通过中心软件可以进行远程断电重启设备。充分利用状态监控功能,能方便、快捷的处理一般简单故障,也能更快的排除及定位故障环节。

3.2网络故障环节的判断要慎重网络故障具体表现为站点所有设备都无法通讯,可能的原因多样,故障环节的判断较复杂,同时网络故障有可能牵涉到第三方(网络公司),所以对网络故障环节判断必须慎重,首先从站点网络设备如交换机、网线、协议转换器等入手,最后才考虑数据链路故障的可能,并请网络公司人员帮助排查。

3.3用好远程维护的技术手段站点的维护工作主要依靠远程维护,大部分的非硬件故障都可以通过远程解决,部分硬件故障也需要远程软件来协助进行故障分析和故障环节定位,因此要充分发挥远程维护技术手段在维护中的作用。我们采用的技术手段主要有三种:1.远程电源管理器、计算机远程桌面控制软件、远程访问命令及软件,监测站点都配备远程电源管理器,通过WEB访问或中心软件可以方便的对电源管理器供电的设备进行断电重启;2.计算机远程桌面控制软件较常用的有VNC和PCANYWHERE,共同的特点是可以对固定IP的站点计算机远程访问,远程桌面会显示在主控计算机上,通过鼠标、键盘实现对站点主机的操作,跟在现场操作一样方便有效;3.对部分LINUX系统的站点,还可以通过PUTY软件和TELNET进入系统内核通过命令行方式进行操作,适用于有一定LINUX系统基础的技术人员。用好上述几种远程技术手段,不仅能及时完成站点大部分日常维护工作,同时也可以和现场维护相结合,提高维护效率。

3.4备品备件充分,方案完善,预防突况监测站点设备运行时间过长容易导致各种硬件故障,特别是采用工控机方式的站点,主机内部任何硬件的故障都可能导致主机无法启动或频繁死机现象,具体原因很难通过远程手段来判断,同时突发性故障也较常见,因此在通过远程手段尽可能准确的定位故障环节的同时,还要充分做好维护方案,尽可能详细的考虑各种可能的突况,备品备件要准备充分,风扇、硬盘、内存、电源、板卡等易损件必须常备。

3.5多依靠站点代维人员站点代维人员在维护中发挥着重要作用,特别是网络故障及电源类故障特别需要依靠现场观察来辅助定位故障环节,部分不需拆机更换的备件也是快递给站点代维人员并委托其更换,多数需要现场操作的简单维护都可以由其代为完成,保持和站点代维人员的良好沟通并充分发挥其维护能力不仅能更快的排除及定位故障环节,更能节省维护成本。

4改进维护工作的几点建议与思考

4.1促进技术升级及设备更新

4.1.1加快设备更新加快嵌入式数字监测站点设备的安装及更换,尽快启动模拟监测设备向全嵌入式转换,建设数字、模拟一体化的嵌入式监测站点,既能避免重复投入,又大大减少故障发生的几率,也更加易于维护。

4.1.2推动SDH省市县三级监测网络扩容与改造将现在的县级站点网络传输模式向以太网方式转变,摒弃协议转换器这个易发故障的环节,部分提前转换为以太接入的市县运行情况表明,网络故障的几率将大大降低。同时对网络带宽进行扩容,以满足监测业务的快速发展的需求。

4.1.3制定系统建设规范和接口标准建立一套适用于我省在建和已建监测系统的统一规范和接口协议标准,方便现有及新建系统功能扩展和在原系统基础上的业务扩展,最终实现各业务系统之间互联互通,站点设备和中心系统将在统一规范下相对独立,不同厂商的设备在满足该规范的条件下更好的兼容。

4.2改变维护方式及维护策略

4.2.1建立监测站点设备信息与维护记录数据库根据机房环境、供电情况、设备清单、设备年份、设备状态等信息建立监测站点基本信息库,并根据维护、巡检情况对变化信息进行反馈和更新,为数据分析、设备趋势预测和定期维护计划制定提供基础。

4.2.2改变维护策略按照设备使用年限、工作环境、老化程度和故障频次将设备维护级别分为三个级别。一级优先级最高,设备年份最久,老化严重,故障隐患最大,二级次之,三级最低。根据级别分类,制定巡检计划,增加一级维护站点的巡检次数,对可能存在隐患的设备环境、板卡、硬盘、风扇、系统等软硬件环节进行排查及提前更换,做到提前维护,减少突发故障。

4.2.3简化维护方式对所有监测站点配置文件进行备份,在对故障进行详细分析的前提下,更多采用整机更换的方式,始终保证数套完整监测站点的备份,并根据监

测站点设备信息库的数据及配置文件,快速还原故障站点需要更换的设备或主机,并远程指导站点维护人员代为更换。

4.3加强培训与沟通加强对我台维护人员及站点代维人员的业务培训,重点提高我台维护人员的故障分析、判断、远程调试能力及现场维护水平;提高站点代维人员对站点设备构成及工作原理的了解并熟悉常见故障现象,同时和站点代维人员加强沟通,建立良好的合作关系。

5结束语

随着广播电视事业的快速发展,监测业务的需求不断扩大,要求也不断提高,监测站点设备所承载的功能也会越来越多,设备复杂性和多样性增加,监测站点的维护难度会更高,重要性也更加突出。认真总结遥控监测站点的维护方法及维护经验,积极探索改进维护工作的新办法和新思路,是值得我们认真研究和探讨的重要课题。

作者:蒋分田钱卫单位:江苏省广播电视监测台

上一篇:智能化数字电视论文 下一篇:技术维护的数字电视论文