基于数据挖掘的仿真模型参数修正

时间:2022-10-15 04:10:31

基于数据挖掘的仿真模型参数修正

摘 要:针对工业仿真数学模型参数估计实践中的难点,提出了通过数据挖掘来修正模型参数的新方法。从实际生产的大量数据中挖掘样本,通过数学方法计算模型参数,针对包含噪声的工业生产数据主要采用改进了最小二乘方法来修正参数;根据工业生产数据不完全及常见分布特点,采用分段组合修正参数的方法;通过实际生产的动态过程的历史数据挖掘来估计动态特性的相关参数,模型参数修正与数据挖掘过程交互引导,来缩小海量工业数据中的挖掘范围及提高参数修正所需样本数据的充分性,并建立两者之间互相协调的网络模型。实际案例验证了方法在工程项目中的有效性和实用性,表明这种方法能大幅提高仿真精度。

关键词:建模;参数校正;过程工业;数据挖掘;精度

0 引言

在工业生产仿真中,模型参数是计算精度的一个关键,模型参数估计的成果举不胜举,但在一些领域仿真数学模型的精度提高很困难。如文献[1]所建立动力学模型接近真实的反应动力学,但离分子反应动力学仍很遥远,原料油组分非常复杂,至今不能将其组分分析出来;又比如文献[2-4]中仿真模型的建立是在实验装置设备上完成的,部分仿真模型的建立甚至带有假设性,这些模型应用于真实的具体生产装置计算有误差。针对一个装置的仿真模型,在推广到另一个同类型的装置时精度也会下降,需要通过对具体装置生产中的数据挖掘来修正模型参数。比如文献[5-9]等虽然一定程度地解决了不完全、不确定等特点的实际数据挖掘取样问题,但工业数据更加复杂,如噪声、海量数据、高维、多时标性、强耦合性、类型多样等,在复杂的工业生产历史数据中获取针对性的样本并修正仿真模型参数是实践中的难点。

1 工业仿真模型参数校正

1.1 通过历史数据挖掘来校正模型参数

每个装置都有自己的个性因素,仿真模型在具体装置应用时,需要做针对性的参数校正。仿真模型参数确定的方法从理论上讲很多,但对于实际工业生产中许多方法是不能采用或不能随便进行的。常见到实践中技术人员采用稳态数据标定,在估算模型参数时只用少量的现场数据去确定模型参数,虽一定程度地估算得到了模型参数值,但数据不充分。数据样本容量越大估计值越接近真值,所以模型参数校正应该依据真实装置大量的历史数据挖掘。

模型参数校正的数学方法比较多,比较实用的如多元线性回归加权最小二乘法,离差平方和为

这样通过对具体装置生产历史数据的挖掘,建立经验模型或校正模型参数。随着对具体装置生产数据挖掘得到的样本数据的增多,仿真模型计算的精度有波动提高趋势。1.2 改进的最小二乘参数校正

工业生产数据往往包含了各种噪声误差,部分数据可能是失真的。在上述最小二乘参数校正中,这些噪声导致的异常数据有较大的异常偏差,平方更大,增加了残差较大数据对参数计算的干扰,这时的计算结果是有偏的。这些异常偏差的失真数据要滤除。

针对包含噪声的工业生产数据,在文献[10]的基础上,对最小二乘确定参数方法做进一步的改进,步骤如下:

1)设参与最小二乘计算的数据样本有n个,采用本文1.1节的最小二乘式回归计算得到

分段组合参数修正

2.1 根据历史数据的分布状况分段参数修正

由于工业生产数据挖掘往往存在不完全、不确定性的状况,所以在建模及参数确定时也容易受到样本数据不充分的困扰。

经过对数十家石油化工、火力发电等过程工业企业历史生产数据的类比归纳,对于生产基本稳定的装置,发现一个重要的大致特点:一段时间之内多数主要参数生产数据基本稳定(多数主要参数值在某一个特定值附近或者在某一上下限区间范围之内),这样一年之内主要参数大致分成了有限个数的阶段。这种状况对于规模大的装置甚至具有普遍性,原因很容易找出来,很多过程工业企业的生产在一段期间内生产工艺参数指标是相对稳定的,在正常工况下,多数生产数据基本在某一范围内或在某一数据附近波动,当新的生产工艺指标改变之后,又在下一个生产阶段相对稳定在新的范围之内。从长期的历史数据中明显地统计(如直方图等)出有限个数的区域,其他区域分布的数据相对稀少,如出现事故及事故处理过程中一些参数会出现平时罕见的调整,这些数据在整个历史数据中占较少的比例。

那么,根据这种数据分布状况,可以对应地改进模型建立及参数校正的方法。对于历史数据相对密集的区域,可以针对性地修正参数,使得这个数据范围内的模型参数更加精确。思路是:在已有的数学模型基础上,根据所挖掘的历史数据的具体阶段性,对应地按数据分段进行校正,参数校正的结果在不同的数据阶段可能有所不同,对于数据空白或者数据不足的数据阶段仍然可以使用原有的模型及参数进行计算。

实践中这种参数修正方法的大致实施步骤如下:

1)开发工具软件,统计生产历史数据文件中各参数的数据分布状况,如简单的直方图;

2)对于主要参数,根据样本分布的统计数据,选定数据量充分的分段区间m个;

3)在这m个中的每一个数据区间内,分别依靠对应的生产历史数据进行模型参数校正;

4)对于除这m个区间之外的数据区域,如果没有挖掘出充分的样本数据,仍采用原有的模型及参数值。

2.2 分段模型参数的组合

软件设计实现时,应明确每个分段参数的调用条件及调用优先级,并把它们协调组合:

1)对于数学模型中的每一个函数式及分段参数,要明确其适用区间的上下限条件;

2)对于上述区间条件之外的自变量数据,可由精度相对较差的模型来计算;

3)要注意模型边界值附近的数据计算的连续性或光滑性,即等于范围边界值、刚刚超出范围、刚刚在范围之内的数据计算结果,避免出现拐点等;

4)分段的数据范围允许互相包含,被包含的范围对应的模型参数调用的优先级较高;

5)多元函数中,各自变量的分段组合量如果过大,可优先侧重于主要参数的分段及组合;

6)不要出现条件范围互相交错的情况,因为两个数据范围如果出现部分重合,重合的数据范围对应的模型参数调用的优先级设定困难。

这样依据生产参数历史数据的具体分布状况,建立针对性的数学模型及参数校正。根据实践经验,其精度相比传统的模型有显著的提高,尤其是在历史数据分布密集的数据区域。事实上,历史数据比较密集的区域往往也反映了具体装置生产的个性特点,甚至可能也是该生产装置以后常出现的数据,模型参数在这些数据区域的精度高对于该装置有“经常性”的价值。

3 动态特性的相关参数确定

用数据挖掘得到的经验模型很多是稳态模型,在用于过程动态仿真时需要进行动态补偿[11]。

3.1 经典动态补偿方法中相关参数的确定

如最常用的欧拉法:

x=x0+h*x-x0T1(6)

其中T1是时间常数。

诸如此类方法在运用时,T1参数值等需要根据具体实际情况进行校正,不少的开发人员确定参数值往往过于理想化,使得仿真的动态过程与实际现场有差距。归纳实践状况,笔者认为主要问题是参数不能准确对应具体装置。

3.2 基于数据挖掘的动态特性参数的确定

实际的动态特性往往与理论推导的结果不完全一致,有很多设备因素、工况因素等会影响实际的动态特性,机理方法难以准确分析,更难以揭示出众多复杂因素对动态过程的综合影响。

要解决这个问题,仍然需要通过实际装置历史生产的数据挖掘。其实,具体装置的生产过程连续数据反映了各种实际因素影响下的综合动态结果,可以通过挖掘,来确定3.1节中式(6)中的参数T1。这些参数的确定过程可参见在本文6.3节中的实践案例。

4 仿真模型参数修正需要的样本挖掘

在采用上述模型参数修正方法的计算过程中,样本数据质量直接影响模型参数的精度。质量高的样本,无论是普通回归还是加权回归结果基本一致,总相对误差和总系统误差很小,接近于0。

而实践中,工业生产数据有多方面的问题,如数据不完全、噪声、不确定、高维、多时标性、强耦合性、类型多样、海量数据等,所以样本数据的挖掘有很多困难。

4.1 数据样本的充分性

对于可自动在线采集的数据(多数过程工业生产装置有生产实时数据库等),获取的成本低,越长时间的原始历史数据给模型参数修正提供的样本数据往往越充分,无论是正常工况还是事故状态。项目一启动,就应检查装置现场自动在线采集数据范围的完备性,对于自动在线采集数据的漏项缺陷,应及早完善相关软硬件(当然要考虑现场生产的约束,可在不影响生产的情况下改造软硬件,如在装置检修停工期间实施)。

对于模型参数修正,需要的数据中有一部分是不可在线自动采集的,如人工化验数据等。需要多渠道全面获取,要尽量从多部门的各种数据档案、业务报表以及相关信息库等中去寻找。

4.2 不同类型的生产数据样本的集成

对于不可在线自动采集数据,每个企业对于长期的历史数据档案存放及维护的具体方法不一样,各种数据档案存储的形式较复杂,常见的包括数据文件、关系数据库甚至纸张报表等。需针对每一组模型参数的修正需求进行集成,部分数据格式需要转换。

在过程工业中,可在线自动采集数据的采集周期一般较短,而不可在线自动采集数据的采集周期时间往往较长,在用于模型参数修正时,需要将这些数据进行集成。这里采用一种简单实用的集成技巧:

1)设不可在线自动采集数据的采集周期是n小时,可在线自动采集数据的采集周期是m秒,针对不可在线自动采集数据的具体状况,将可在线自动采集数据的历史数据文件对应地按n小时(或者按两个时段的最小公倍)自动分段,顺序存放在不同数据文件中。

2)建立集成索引数据表,数据结构包含字段:时段起始时间,本时段的不可在线自动采集的历史数据,本时段的可在线自动采集历史数据文件名。

把不同类型的历史数据进行集成,才能适用模型参数修正的样本要求。需要能够对数据文件进行索引、查询、维护等的数据文件管理程序。

4.3 在历史数据中分离抽取符合要求的样本

针对每一组模型参数修正的样本需求,庞大的原始历史数据中多数不是需要的,而经过处理后的样本数据更是其中的一少部分。工业生产的长期历史数据具有不确定性,需要从杂乱的原始数据中抽取符合要求的数据。

根据数据样本要求条件,可以建立简单的专家系统来搜索,并将获取的数据另存入专门的样本数据库;也可以开发一个功能灵活的检索程序,具有多条件组合查询功能,在人工辅助下将符合要求条件的数据导入专门用于本组模型参数修正的样本数据库。

5 数据挖掘与模型参数修正过程之间互相协调

很多大型过程工业装置多年的生产历史数据是海量数据,数据挖掘的工作量在实践中也非常大。面对实际工业生产的数据挖掘,一些技术人员常抱怨:不能像实验装置那样可以通过主动调试得到自己希望的数据样本,而只能被动地接受海量的杂乱实际历史数据。根据经验,不可在线自动采集数据的历史数据挖掘工作更容易遇到各种麻烦,实践中成本普遍高。巨大的工作量可能导致最终难以实施,极端地投入成本有时也不现实。

5.1 模型参数修正与样本数据挖掘的交互引导

需要把模型参数修正需要的历史数据充分挖掘出来,同时也要尽量避免盲目的数据挖掘。本文提出模型参数修正与数据挖掘的交互引导方法:

1)充分借用用户资源,尽早启动可在线自动采集数据及成本较低的不可在线自动采集数据的获取。

2)针对每一组数学模型参数修正的目标以及已获取的历史数据的状况,选择适当的模型参数修正方法,并明确所需历史数据样本的条件范围。

3)从各历史数据库中充分搜索出符合条件范围的数据样本,导入针对本组模型参数修正的样本数据库,并审查数据内容是否达到本组数学模型参数修正的要求。

4)如果样本数据充分且数据质量合格,进行本组模型参数的修正计算;如果数据不充分,确定出其中欠缺的数据要求条件。

5)归纳各组模型参数修正所欠缺数据的要求条件。

6)根据要求条件去寻找所需要的原始数据。

7)对于补充数据挖掘仍无法获取的数据,为了减少后续数据挖掘的压力,数据要求范围条件尽量扩宽,并考虑调整相关的模型参数修正方法,重新明确所需历史数据的条件范围,然后返回步骤3)。

如图1所示,模型参数修正与数据挖掘交互引导,逐步循环得到针对各组模型参数修正所需历史数据。

图片

图1 模型参数修正与数据挖掘交互引导的逻辑流程

其中后续补充数据挖掘都是针对性的,减少了不需要的数据挖掘工作量。而前期基础性的数据挖掘,往往也是企业其他生产控制和管理工作所要求的内容(包括在线自动采集数据的历史数据的存储以及部分人工化验数据的历史数据库的维护),企业用户自己已经具备,仿真开发人员可以和用户合作、拿来借用,对用户已有数据进一步处理。

这个方法中,数据挖掘与模型参数修正具有交互引导的辩证关系:一方面,针对每组模型参数修正方法的选用及样本数据选择,需要以已获取的历史数据作为基础依据,如果没有基本的历史数据,模型参数修正方法的选择可能会盲目;另一方面,各组模型参数修正所需要的样本数据的条件,可引导后续的补充数据挖掘的范围。根据实践,这种交互循环的次数实践中一般几次即可。

5.2 数据挖掘、模型参数修正与仿真系统开发过程

数据挖掘与仿真项目开发(包括模型参数修正)应是并列进行的,之间的动态进展应该协调起来。如图2所示,用产品数据管理(Product Data Management,PDM)图描述了实践中数据挖掘与项目开发相关活动的过程网络关系。

下面对PDM图中主要活动任务简要解释:

1)活动6:为了使数据获取尽量充分,项目一启动就应及早进行可在线自动采集数据的获取工作,并完成数据挖掘的大致计划;

2)活动7:在需求分析基本确定之后,针对性地调整数挖掘的范围等,并开始数据挖掘(与项目开发并列进行);

3)模型参数修正(活动5)之前进行测试实施(活动4),根据测试结果再有侧重点地选择参数修正,避免不必要的投入;

4)而测试也需要依据历史数据[12],所以数据挖掘(活动7)也是活动8(建立测试准备数据库)、活动9(测试设计)的前置任务;

5)活动11:根据模型参数修正(活动5)的需要,对于缺乏的数据进行针对性地补充数据挖掘,并通过数据处理得到用于模型参数修正的针对性样本数据库(活动10),再进行模型参数的修正;

6)可多遍迭代循环:活动5 活动11 活动10 活动5。

数据挖掘的过程和模型参数修正的动态进展经过协调,使得样本数据质量高、充分,同时处理成本尽量低。

图片

图2 数据挖掘与项目开发过程网络关系PDM图

6 实践案例

中原地区某提升管催化裂化的反应再生仿真模型的建立很困难[1,10],通过对实际装置长期生产的历史数据挖掘,得到了针对具体参数修正的大量数据样本,修正了这些模型参数。从这个项目中提取了下面三个综合实践案例,反映了上述各技术方法的实践要点。

6.1 案例1

常规再生器稀相温度T稀相和密相温度T密相、烟气出口氧含量O出口、一氧化碳含量CO出口有函数关系。但通过常规机理得出的函数关系精度较低,对历史数据进行挖掘,而初步挖掘得到的数据具有明显的分布规律,比如关键参数O出口的绝大多数历史数据在[0.2,0.8]内,那么模型建立及参数修正也对应历史数据分布区域状况进行分段,可先按O出口分3段:[0,0.2]、(0.2,0.8]、(0.8,20],分别进行参数校正或重新建立经验模型。

6.2 案例2

催化裂化装置中的外取热系统的水蒸气的流量和温度是长期定负荷稳定不变的,可以针对性地建立正常工况下外取热量Q与外取热催化剂的流量Gr、再生温度Tzs的函数关系。通过对实际装置大量历史数据的挖掘,运用经典最小二乘方法,得出正常工况下外取热量Q与Gr、Tzs的统计模型[10]:

上一篇:法医张福兵:较了半辈子真 下一篇:基于投影熵特征的图像识别算法