IT信息化建设中自动化设计方案

时间:2022-09-29 03:35:21

IT信息化建设中自动化设计方案

随着信息化在电力的深入应用,以及下一代互联网技术和大数据技术的整体环境影响下,IT信息化建设对业务运行支撑愈来愈重要,而与此同时IT系统运行稳定、IT服务快速响应、IT辅助决策等IT运维的工作,则变得比以往都至关重要。本文详细调研和摸查广州供电局实际的运维场景和自动化运维需求,结合当前主流的IT技术:Consul、Netty、Nodejs、Tornado、Nginx、Docker等,以及DevOps运维理念,总结和提炼出广州供电局的信息自动化运维建设思路,包括自动化运维框架体系、平台逻辑设计、建设阶段与路径、最佳实践等内容,并逐步进行广州供电局部分运维工作的自动化建设。为提高运维效率、减少人为误差,以及更长远的应用下一代互联网技术、DevOps实践、故障自愈,和智能运维提供思路与架构模型。

【关键词】自动化运维 PAAS ESB DevOps 故障自愈 SAAS

为实现信息化引领企业发展,原有的系统将不断通过迭代和扩展功能来达到健壮和完善的目标,而与此同时,外部的互联网技术、云计算、大数据技术也在不断的为各个行业创造新的价值。不断增长的IT规模,以及各类技术栈在广州供电局的应用,和日益增高的安全及可用性需求,都对运维工作提出了更高的要求。如何进一步提高业务稳定性,提升IT对业务的敏捷响应,甚至辅助业务运营分析,都是未来很长一段时间需要不断对运维进行思考的问题。

自动化运维是一种运维模式的创新,这种模式会结合平台系统、运维流程、运维人员能力、以及业务辅助来规划和建设。它既能从实际层面解决运维的重复性工作执行效率、提升运维的安全性和准确性,以提升业务的可靠性,也能帮助将运维模式朝新型的DevOps模式进行转变,运维可自定义运维工具来满足多变的场景,提升运维的创造力,提升IT敏捷效率,以及为业务辅助提供数据与平台。

本文通过技术研究与实践后,对自动化运维体系的理解,包括自动化运维框架体系、平台逻辑设计、建设阶段与路径、最佳实践等内容,参考了当前主流的IT技术:Consul、Netty、Nodejs、Tornado、Nginx、Docker等,以及DevOps运维理念,再深入结合广州供电局的具体运维场景和现状,进行了分析和规划,并探索出可落地的自动化运维规划。

1 IT运维自动化推动背景

随着业务模式多样化的需求,以及IT技术飞速的发展,广州供电局对IT系统的运维,已进入一个“新常态”。在这个“新常态中”,广州供电局IT运维有一些显著的变化:

1.1 规模大

广州供电局平台规模呈快速增长趋势,新业务规划需要更庞大而又灵活的IT架构来进行支撑,服务器数量、运营数据、安全风险种类日益增多。

1.2 技术栈复杂

各类操作系统、虚拟化平台、应用中间件、业务配置选项等加大了管理复杂度,软件定义数据中心、容器技术、大数据、云计算等高效技术的引进增加了IT人员技术储备的压力。

1.3 新的开发模式

业务系统的开发运维,从单体、瀑布架构,向Devops、微服务架构演进。

1.4 IT敏捷性的要求

应用、更新比以往更频繁,应用可用性要求为永久可用等等。

电力的信息系统整体运维也面临着从旧运维模式到新运维模式的转变,传统运维模式的三个重要特征:

(1)依赖于运维人员的运维管理技能与经验;

(2)以脚本作为配置管理的主要手段;

(3)各个系统之间没有打通,运维管理需要在不同的系统与平台间手动切换。

而探索新的运维模式需要具备三个方面的特征:

(1)运维管理不再依赖运维脚本,而是基于场景化的运维工具;

(2)运维平台强调自动化,能够进行自动化巡检、故障恢复等;

(3)强调可编排(编程)性,能够通过编排等手段支持复杂的运维场景。

2 IT运维自动化设计方案

2.1 IT运维自动化设计思路

广州供电局在自动化运维的过程中也做过很多的探讨,除了积累大量的自动化脚本外,也考察过Ansible、Saltstack、Puppet、Chef等自动化运维工具,但是遇到过很多的难点,而从难点中提取出来的经验就是,自动化运维不应以技术和平台为驱动力,而是要以运维场景为驱动力。

这也是自动化运维落地的难点所在:自动化运维需要满足且持续不断满足业务定义的运维场景,而运维场景有着变化、灵活、跟企业运维模式紧密相关的特点。并且还需要应对运维组织、运维技术能力等带来的一系列变革和冲击。

在这种前提下,我们首先需要定义自动化运维的场景并且认识它的特点。运维的场景是指:一系列运维活动与管理活动的联动,并遵循流程进行满足业务需求的运维设计。例如:软件安装,是一个运维活动;而业务部署,则是一个运维场景,除了软件安装的活动外,还有配置、验证测试、上线切换等运维活动,并且还需要遵循企业业务部署的流程和安全规范。这个场景里面,需要用到资源驱动力、流程集成性、自动化执行、流程编排等一系列技术,而这还只是一个场景。

通过详细的调研,广州供电局典型的运维场景部分列举如下:

业务部署:完成业务软件的安装、配置、验证测试、上线切换等动作。

配置变更:修改平台、软件、用户等的配置信息以及配置基线管理。

状态巡检:对系统运行状态进行常例化巡检,评估系统运行状态。

容量分析:实时分析系统容量信息,输出容量报表,管理阈值,触发容量告警。

故障响应:能够基于故障类型、业务类型等信息自动化对故障M行分析处理。

自动化运维框架建设的原则应充分考虑场景化运维的复杂性、扩展性和灵活性。并应该具备如下几种能力:

(1)自动化运维平台应具备PAAS的能力,它能驱动企业各个IT组件,包括新的技术如互联网组件、大数据平台等,旧的如已有的一些各个厂商的设备,它的扩展性要比以往的要求更高,而不是局限在厂商自己软硬件产品的自动化运维工具上,要脱离工具上升到平台级别;

(2)平台能高效集成企业运维流程,将ITSM和ITOM高度联动,实现流程真正的自动化;

(3)运维应具备运维开发的能力,运维IT需要从传统产品化运维人员,走向开发运维,自己能通过运维开发的方式实现自己的个性化运维需求,并帮助业务实现敏捷交付。

2.2 自动化运维框架

参考ITOM理念和主流自动化运维技术架构,从打造IT运维能力角度出发(IT运维能力是指企业信息化运维的一套效能体系),围绕IT运维能力持续的建设,将不断丰富和优化企业的运维模式。设计的自动化运维框架如图1。

在这一套体系里面,有两个概念非常重要:

2.2.1 PAAS平台

自动化运维的运维对象驱动能力至关重要,这也是自动化运维场景得以实现的最大技术阻碍,PAAS的能力在于可以通过Agent、接口、协议等多种模式来驱动运维对象,无论是硬件还是软件;并且PAAS提供了企业可以定制自己运维SAAS的能力,只有按这种模式走,才能去覆盖企业定制化的、庞大复杂的运维需求。

2.2.2 \维能力的落地

运维能力不能仅局限于单个产品的功能便捷,它应该是从运维需求和规划出发,多个运维SAAS应用来组装成运维能力,如图2。

2.3 自动化运维技术关键-运维ESB

如何高效驱动各个自动化运维的对象,以及并保留持续的扩展能力,将是自动化运维技术关键所在。这里参考业务系统的ESB(企业服务总线)模式,建设一套企业运维的服务总线,并采取如图3所示。

运维ESB的模式将解决核心问题:运维流程调度。脚本原子可以实现对资源驱动,原子可以相互组合成服务组件,应用API可以直接注册到ESB。这种模式的价值体现在将各个IT对象的操作原子化,不仅可充分利用已有对象开发的API和通用协议,还可以将企业已有的脚本沉淀并导入;原子组装成服务组件,服务组件将具备更大的灵活性,这对场景的支撑将会覆盖度更完整;服务组件的积累将丰富运维ESB的能力,并可以快捷方便的支撑各类工具和运维应用。

2.4 自动化运维落地模式-运维SAAS

如果定义运维自动化需要一系列的运维工具及产品来满足各个场景,那在自动化运维平台上,比较完美的方式则是建设一个开放的SAAS应用环境。基于SAAS运维APP形成企业的运维应用商店,满足各个运维人员的多场景运维需求,并以此为可落地的方式建设企业运维能力;SAAS应用统一调度平台的底层驱动能力,从而构建一个可快速、便捷和扩展的整体运维体系与能力;SAAS应用的来源可来源于真正的一线运维人员,让他们具备运维开发的能力后,能真正积累出属于自己的运维应用,并助力IT运维转型;运维的SAAS应用将会是从运维场景需求出发,而产生的运维工具,如图4所示。

3 IT运维自动化建设规划

冰冻三尺非一日之寒,自动化运维的建设也不仅仅是一套产品、一个项目可以达成的,自动化运维需要按不断满足业务场景,不断抽象出运维能力的模式来实现。要实现成熟的自动化运维要分三个阶段:

(1)梳理阶段,进行需求调研,含运维场景梳理,运维需求整理。这个工作是自动化切入的重中之重,调研要覆盖运维班助的各个运维领域,而且需要了解运维工作、运维自动化需求等运维人员的诉求,以及管理上的需求。以广州供电局的数据库运维为例,梳理出来的内容有日常工作,巡检(查看服务状态、数据库用户状态、性能状态、表空间使用率、CPU、磁盘使用率)、物理备份和逻辑备份检查;周期性工作,周报(故障、优化项工作、处理的告警)、月报(关键系统运行情况(CPU、内存、服务状态、性能情况));非周期性工作,安装数据库、账号管理、数据管理-导数等、安全加固、性能调优、表空间扩容、后台日志清理(监控平台给出)、数据库迁移(1年7-8次)、版本升级。运维人员提出自动化需求含数据库用户管理,巡检、部分报告,数据库日志管理,表空间自动扩容,自动导数,数据库环境交付,安全加固,后台日志清理。

(2)阶段规划,包括运维对象接入、运维APP开发、运维能力集成,定义3-5年的运维SAAS应用建设规划,并围绕持续的运维能力建设展开,如图5所示。

(3)持续改善与运营,包括APP集成、DevOps建设、故障自愈建设,持续优化等;

以DevOps为例,代码构建、自动化测试、代码检查、版本持续交付,标准化企业流程,实现自动化。

4 结语

本文针对目前广州供电局和电网信息系统的运维现状,结合新型的互联网技术架构,提出的自动化运维的理论、自动化运维架构、自动化运维的规划建设。主要集成了运维PAAS、运维ESB、运维APP商店等技术概念,并充分结合电网信息系统运维的特点,提出整体的自动化运维建设模式。随着政府十三五信息化指导意见书明确提出打造智能化运维体系,同时随着企业内外部IT环境的变化,自动化运维将为企业的运维效率、敏捷业务支撑、提高业务可用性带来全新的局面,然而自动化运维的建设的确不容易,且会对企业运维的整体架构带来巨大的改变,所以需要以步步为营、逐步建设的思路来带动电力信息系统自动化运维建设。本文提出的部分架构和思路,已逐步开始应用于广州供电局的运维场景,并在提高效率、提高运维质量、提高安全度上取得了不错的效果,后续将持续的建设,使企业持续获得IT的有效支撑与价值呈现。

参考文献

[1]李亚琼. 场景化运维―平台、引擎与自动化,2016 全球运维大会,2013.

[2]毛承国,张卫华,张进铎,等.大规模集群运维自动化的探索与实践[J].信息安全与技术,2014(02).

[3]温超.电力信息系统运维管理自动化解决方案[J].山东电力技术,2012(01).

[4]杜成武.IT运维综合管理平台实现科技管理信息化[J].金融科技时代,2012(08).

[5]王庆霞.浅谈IT运维管理的应用与实践[J].信息安全与技术,2012(11).

[6]戚伟强,沈潇军,洪建光,等.基于ITIL的电力信自动化运维体系研究[J].现代电子技术,2012(02).

[7]闫龙川,刘军.企业信息系统自动化运维工具研究与应用[J]. 供用电,2015(08).

[8]李磊.IT自动化运维平台建设和应用 信息技术与标准[J].信息技术与标准化,2016(10).

作者简介

赵静(1982-),女,湖北省武汉市人。硕士学位。广州供电局运维工程师。研究方向为信息运维。

作者单位

广州供电局有限公司 广东省广州市 510620

上一篇:基于单片机的血粘度测量系统设计 下一篇:脸谱艺术在动漫插画造型中的运用探微