数据中心设备状态评价模型研究

时间:2022-06-30 03:53:47

数据中心设备状态评价模型研究

摘 要 数据中心设备数量巨大,如何保证设备的安全稳定运行成为数据中心设备运维管理的重要课题,而解决该问题的前提是及时、全面获知设备的运行状态,因此,本文对如何系统评价设备状态进行了细致研究。根据数据中心设备物理构成特点,抽象出了硬件层、设备层、部件层、指标层四个层面,提出了基于模糊理论并结合CRITIC算法和AHP算法对设备状态从下到上逐层进行评价的理论模型。另外,本文还对模型评估和模型优化进行了探讨。该理论模型的应用可有效提升数据中心的设备运维水平,支撑数据中心高效运营。

【关键词】设备状态评价 模糊理论 CRITIC算法 AHP算法 主客观组合赋权法

1 引言

随着信息化的深入发展,以及大数据和云计算技术的成熟与应用,国家和企业纷纷加大了数据中心的建设。截至2012年3月我国各类数据中心约有43万个,所有机房可容纳的服务器可达500万台。由于服务器设备数量巨大,设备管理与维护越来越重要,设备运维水平直接关系到数据中心能否安全稳定运营,而做好设备运维的前提是及时、全面获知设备的运行状态。因此,本文以数据中心服务器设备为研究对象,对设备状态评价模型进行了系统研究,结合了多套算法从不同的层面对数据中心设备进行评价,旨在全面、系统地获知设备状态,提升数据中心设备运维管理水平,为数据中心的高效运营提供支撑。

2 模型概述

2.1 评价对象

服务器是数据中心最为核心的设备,就服务器种类来说,目前X86以其成本低廉、性能强大等优势逐渐成为数据中心的主流服务器,在服务器组成结构上,典型的X86架构服务器一般都包含CPU、内存、主板、网卡、磁盘、电源、风扇这几大核心部件。本文以基于X86体系架构的服务器作为基本评价对象。

2.2 评价思路

数据中心由数以万计的服务器组成,服务器又由若干部件组成,每类部件具有若干指标属性,基于数据中心的物理及逻辑构成特点,将数据中心分为硬件层、设备层、部件层、指标层四个层面,对数据中心设备状态进行系统评价。具体来说,首先通过部件运行指标值对设备部件状态进行评价,然后通过部件状态对设备状态进行评价,最后统计分析众多设备的状态得出整个硬件层的状态,完成对数据中心整体设备状态的评价,整个评价思路是一个自下而上的过程。

2.3 评价框架

首先需要考虑以下几个关键问题:

2.3.1 状态界定

本文中设备状态是指设备当前的运行状态,为了统一对设备状态的认识,将设备状态分为以下四个等级:

(1)正常状态:所有运行指标处于理想运行范围内,设备处于健康状态;

(2)注意状态:部分指标运行超出理想运行范围,设备服务能力下降;

(3)异常状态:运行指标变化量较大,设备部分部件发生故障,但设备仍可对外提供服务;

(4)严重状态:运行指标严重超出理想运行范围,设备几乎或已经不能对外提供服务。

2.3.2 指标体系

构建一套科学的指标体系是设备状态评估的基础,所选择的指标需要客观反映评价对象的运行特征,具有客观性、完备性,并且要可测量、可采集,具有实际操作意义。本文选取的指标主要有CPU、内存使用率、温度、电压以及部件负载信息等。

通过模型算法对部件运行指标的“好”与“坏”进行判定,需要制定一套指标标准值。设备部件运行指标值与设备配置、数据中心运营要求等多种因素有关,目前业界没有统一标准,主要依据专家经验并结合厂商给出的设备参数制定出合理的指标标准值。

2.3.3 权重因素

主要包含两个层面的权重,一是指标权重,二是部件权重。通常设备部件的状态可通过多个指标来衡量,如CPU使用率、CPU温度,而这些指标对于部件状态的影响程度并不相同;类似,不同部件的运行状态对设备状态的影响也不尽相同,如风扇对设备的重要性相比CPU就低很多。因此,在设备状态评价模型中需要引入这两类权重并进行量化。

目前权重的确定方法可分为两类,一类是主观赋权法,另一类是客观赋权法。主观赋权法是由决策分析者根据对指标的重视程度而赋权的一类方法,由于引进了人为干预,这类方法难以摆脱人为因素的影响;客观赋权法一般是根据所选择指标的实际信息形成决策矩阵,在此矩阵基础上通过运算形成权重,该类方法忽略了对指标重要性的先验认识。由于部分指标值在设备实际运行中存在一定的主观可调整性,如CPU、内存使用率,仅使用客观赋权法会存在一定的局限性。因此,本模型拟组合客观赋权法(CRITIC算法)和主观赋权法(AHP算法)构建指标权重函数计算指标权重。

2.3.4 评价理论

设备状态是一个模糊的概念,具有很强的主观性,难以对其进行精确区分与衡量,在设备管理与维护过程中,也无需对设备状态进行精确度量,采用模糊理论可很好地满足设备状态评价需求。

基于以上分析,给出设备状态评价模型框架图,如图1所示。

3 模型实现

3.1 模型权重计算

3.1.1 基于CRITIC算法的指标权重计算

(1)样本数据选择。记部件类别数为m,样本数据为当前时刻全部设备某类部件的指标值,样本容量为n,即样本包含n个该类部件的指标值,每个部件上的指标数量为pi(i=1,2,..,m)。将原始指标值与指标标准值进行对比计算偏差率,得到模型的最终输入值如下:

其中Xi为指标i的样本值,xij为第i个部件第j个指标的取值。

(2)数据的标准化处理。不同指标的数量级和量纲可能会有所不同,需要进行标准化处理以消除数量级和量纲的影响。对于正向指标,即越大越好的指标,作如下转换:

对于负向指标,即越小越好的指标,作如下转换:

为了便于理解起见,仍记标准化处理后的指标值为xij。

(3)指标权重计算。第j个指标与其他指标的冲突性量化指标为:(1-rij),其中rij为评价指标i和j之间的相关系数,记指标Xi与Xj的相关系数为rij,则rij为:

其中为指标i的平均值,r的计算结果在区间[-1,1]内,r0认为Xi与Xj是正相关的,r=0则认为Xi与Xj不相关。

各个指标的客观权重就是以对比强度和冲突性来综合衡量的。设Cj表示第j个评价指标所包含的信息量,则Cj可表示为:

Cj越大,第j个评价指标所包含的信息量越大,该指标的相对重要性也就越大,计算第j个指标的客观权重:

采用CRITIC方法建模得到某类部件的指标权重向量记为Wc。

3.1.2 基于AHP算法的指标权重计算

(1)判断矩阵构造。AHP算法的关键在于利用1~9间的整数及其倒数作为标度来构造两两比较判断矩阵。在同一层评价因素中,将部件的指标进行两两对比,计共有m类部件,第i类部件的指标数为pi,根据相对重要性的判断引入合适的标度数值,从而形成判断矩阵,记为Ei:

其中eij表示指标i对指标j的相对重要性度量,指标j对指标i的相对重要性度量为eji=1/eij。

(2)指标权重计算。计算矩阵Ei的最大特征根λmax,得到最大特征根对应的特征向量为,Wf为权重向量,此特征向量即为所求权数。由于评估人不可能判断出权数的精确值,这就需要使用一致性检验公式对判断矩阵进行一致性检验:

其中CR为判断矩阵的随机一致性比率,CI为判断矩阵的一般一致性指标,RI为判断矩阵的一般一致性指标。当CR

最后对权重向量进行归一化处理:

为了便于理解,归一化处理后的权重向量仍记为,权重是介于0和1之间的小数,并且指标权重和等于1。

3.1.3 主客观组合赋权法计算最终权重

引入系数α,α是介于0和1之间的小数,综合考虑主客观赋权法获取的权重,得到最终的指标权重向量为:

其中α可人为调节,如果要突出主观权重法,则将α调小,反之,要突出客观权重法,则将α调大,当α=0.5时,主观赋权法和客观赋权法相当。

亦可根据AHP算法思想得到部件的权重:

其中qi为第i类部件的权重。

3.2 部件层状态评价

(1)构建模糊评语集。设模糊评语集V={v1,v2,…,vk},根据设备状态等级划分得出V={正常状态,注意状态,异常状态,严重状态},V对每个层面的状态评价都适用。

(2)构建模糊判断矩阵。按照部件对指标分组。记指标集为U,部件类别数为m,则:

其中Ui为第i类部件的指标集合,记i类部件的指标数为pi则:

建立第i类部件的模糊评判阵Ri:

rij表示对指标uij的评价中,等级vj所占的份额。rij的取值一方面可由专家根据指标分布给出;另一方面可通过海量历史数据进行统计分析,先将指标数据根据评语集进行离散化,之后分类统计各个指标占各评语等级的频率,以该频率作为rij。

(3)评价部件状态。利用Ri和指标权重的复合运算即可求得部件k的综合评估结果:

其中“”为模糊合成算子。模糊合成算子有多重计算方法,且适用情形各不同,本文拟选择算子,这是因为指标作为部件的衡量因素,指标的状态直接影响设备的状态,所以应该突出主因素和指标权重影响。

对于部件评价结果向量的分析,可采用最大隶属度原则。部件在哪个等级的得分最多,则认为部件状态属于哪个等级。

3.3 设备层状态评价

高层次的评估矩阵可由较低层次的综合输出构成,即设备的评估矩阵R可由部件的综合输出构成。

设备综合评估结果为

这里的模糊算子仍选择算子,这是因为部件作为设备的组成因素,部件的状态直接影响设备的状态,所以应该突出主因素和权重影响。

对于设备评价结果向量的分析,本文选择最大隶属度原则评价设备所属的状态等级。

3.4 硬件层状态评价

在设备状态评价结果的基础上进行整个硬件层状态评价。使用探索性数据分析的方法,可形象直观地评价硬件层运行现状。

探索性数据分析是对调查、观察和计算所得到的数据,在尽量少的假定下进行处理,通过作图、制表等形式和方程拟合、计算某些特征量等手段,探索数据的结构和规律的一种数据分析方法。示例说明如表1所示。

表1:硬件层设备状态评价结果示例说明

状态等级 设备数量(台) 占比

正常状态 n1 p1

注意状态 n2 p2

异常状态 n3 p3

严重状态 n4 p4

合计 n 100%

4 模型评估

从模型准确率和模型稳定性两个角度对模型进行评估,模型准确率评估采用准确率的平均值来衡量,稳定性评估采用准确率的均方误差来衡量。在已发生的时间轴上采集指标值和设备状态作为测试样本,运用已建立的模型评价测试样本的状态,并与真实的样本状态进行对比,结果越符合真实状态则说明模型准确率越高。

假定采取了N个时刻的数据,Ni表示第i个时刻评价的设备数量,准确率为Ri:

其中xj表示对设备j的状态评价正确与否:

则N个时刻平均准确率为:

越接近于100%,则说明模型预测准确率越高。

准确率均方误差为:

MSE越接近于0,则说明模型越稳定。

5 模型优化

数据中心设备数量巨大,保留的历史运行数据达到海量级别,属于大数据的范畴。利用大数据技术与理念,对这些数据进行挖掘分析,可很好地对设备状态评价模型进行优化。本文模型中所使用到的指标标准值,部分是依据专家经验得出的,考虑到设备的利用效益、成本节约等因素,诸如CPU、内存使用率的标准值是可结合历史运行状况适当进行调整的,通过对历史指标值的统计分析并结合设备实际状态,可以为指标标准值的制定与优化提供有力支撑;另外计算判断矩阵过程中对两两部件之间的重要性判断也存在一定的主观性,通过对历史运行数据及设备实际状态的分析,可以挖掘出部件之间的关联性,进而为调整和优化部件之间的重要性提供依据。

6 结语

本文以数据中心服务器设备为研究对象,系统地进行了设备状态评价模型的研究。在评价思路上,本文将数据中心所有设备分为硬件层、设备层、部件层、指标层四个层面,从下到上逐层对设备状态进行评价。在具体算法方面,采用了模糊理论并结合CRITIC算法和AHP算法分别评价部件层、设备层和硬件层的状态。在权重方面,本文创新性地构建了主客观组合赋权法对指标权重进行赋权,有效消除了单独使用主观或客观赋权法所产生的不良影响。同时,本文对模型评估也进行了详细论述。最后,本文还通过对海量历史指标数据的分析,对模型优化进行了探索。该理论模型的应用可有效提升数据中心的设备运维水平,支撑数据中心高效运营。受限于实际指标数据的采集等因素,本文在模型检验方面存在一定的不足之处。

参考文献

[1]陈正伟.综合评价技术及应用[M].成都:西南财经大学出版社,2013.

[2]何晓群.多元统计分析[M].北京:中国人民大学出版社,2012.

[3]和讯网.http://.

[4]李爱国,厍向阳.数据挖掘原理、算法及应用[M].西安:西安电子科技大学出版社,2012.

[5]孙亚辉,林韩,陈金祥.变电设备状态综合评估方法的研究[J].中国化工贸易,2013(04).

[6]维克托・迈尔-舍恩伯格,肯尼思・库克耶.大数据时代[M].杭州:浙江人民出版社,2013.

[7]张炳江.层次分析法及其应用案例[M].北京:电子工业出版社,2014.

[8]张小红,裴道武,代建华.模糊数学与Rough集理论[M].北京:清华大学出版社,2013.

作者单位

云南电网有限责任公司信息中心 云南省昆明市 650206

上一篇:改进遗传算法及最小二乘法在计算机数学建模中... 下一篇:商务部:跨境电子商务的增速很快 但规模有限