应用化学计量学技术预测预测原油性质和反应产物分布

时间:2022-08-29 04:44:09

应用化学计量学技术预测预测原油性质和反应产物分布

摘要:该文通过收集整理原油实验室积累的大量有价值的原油评价数据,建立了原油数据库。同时,将数据库中的原油性质和反应产品分布数据作为训练数据,结合化学计量学校正理论,建立了性质与性质、性质与反应产物分布的数学关联模型。结果表明,利用各种校正理论方法建立的数学关联模型都有很好的预测效果,能够达到对性质组成和反应产物分布快速、准确预测的目的。

关键词:原油;化学计量学;校正理论;粘度;催化裂化 R语言

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2012)28-6815-05

原油炼制技术研究,必须建立在系统深入认识原油化学特性的基础上,以石油化学为理论依据,以提高汽柴油等液体产品收率为目标。因此,实验室开展了对原油深入的化学评价分析。最终,利用分析数据建立了原油数据库。目前,如何利用先进数据分析方法对数据库中的原油评价数据进行有效地分析成为实验室面临最主要的研究问题,通过此项研究,以便提出原油的性质组成及反应性能关联预测模型,获取更多关于原油的知识,并为原油优化加工技术开发提供技术基础。为此,本文的研究重点是在前人大量对原油实验研究的基础上,利用所收集的原油分析实验数据,结合化学计量学校正理论,研究原油性质组成和反应产物分布的预测方法。

1 实验

1.1 原油性质和反应数据收集

分别测定原油原料的性质组成,性质组成包括密度、残炭、粘度、平均分子量、元素含量(H,C,N,S)、H/C、金属Ni和V的含量、饱和分、芳香分、胶质和沥青质。同时,还要对原油的原料进行催化裂化反应[1]和热转化反应性能的研究。最终,将性质组成和反应数据存储于数据库,为下一步数据分析提供数据基础。部分原油催化裂化反应数据见表1。

1.2 化学计量学校正理论

校正理论是化学计量学最重要的组成部分,所谓校正就是利用化学量测系统或数据和已有被研究体系的知识或信息,采用适当的统计学方法建立的一个模型,然后利用该模型定性或定量分析未知对象或样品,并预测被分析对象各方面信息的过程[2]。原油的性质和反应数据经测定收集后,利用校正理论方法,便可以建立性质与性质、性质与反应产物分布的定量数学模型,最后利用该模型定量预测未知原油样的性质和反应产物分布数据。

本文选取了六种常用的校正理论建模方法建立定量数学预测模型,六种方法包括:

原油性质组成数据和反应数据作为模型的训练数据,利用多元线性回归方法,求解回归系数β,便可以建立性质与性质、性质与反应产物分布的数学关联模型。最后,将未知原油的性质数据输入数学模型,就可以达到定量预测未知原油性质和反应产物分布的目的。

2)逐步线性回归(Stepwise Regression,SR)

参加多元线性回归(MLR)的n个原油的性质特征量x1,x2,…,xn中,单独观察时有些性质特征量x与因变量y(性质或反应产物分布)的相关程度很密切,有些性质特征量x显得不重要。若把这些不重要的特征量保存在回归方程中,不仅增加计算工作量,而且会增加方程的不稳定性[4]。因此,希望从n个性质特征量中选出与预测值因变量y最密切,最具有代表性的性质特征量x。为此,本文采用逐步线性回归法,在原油的性质中,分析选出与需要预测的原油的某个性质或某个反应产物分布关系最为密切的关键性质,作为线性回归方程的自变量x。

3)主成分回归(Principal Component Regression,PCR)

若原油性质特征量相互间无“共线性”(原油性质自变量呈线性、无干扰和无变量间的相互作用)问题,则利用多元线性回归方法建立的数学模型可以达到很高的预测精度[5]。但原油分析中数据总是带有误差,此时将多元线性回归建立在整体性质数据矩阵的基础上,就会造成模型失真,降低预测精度。为此需要采用主成分回归法,首先对原油性质做主成分分析,选取重要因子,然后采用常规多元回归分析方法建立重要因子与待预测性质或反应产物分布的数学模型。可以看出主成分回归实际上是主成分分析和多元线性回归的组合。

4)偏最小二乘法(Partial Least Squares,PLS)

偏最小二乘法(PLS)是化学定量校正理论最常用的一种方法[6-7],PLS模型建立过程见图1。在预测原油性质或反应产物分布过程中,利用训练数据(数据库中的原油性质、反应产物分布数据)和偏最小二乘法,首先求出系数矩阵b,建立多元线性模型,输入未知原油的性质组成数据,便可以得到预测结果。

偏最小二乘法与主成分回归有着相同的模型结构,主成分回归(PCR)的主要目的是要提取隐藏在自变量矩阵X中的相关信息,然后用于预测变量Y的值,这种方法可以保证只使用那些独立变量,噪音将被消除,从而达到改善预测模型质量的目的。但是,主成分回归仍然有一定的缺陷,当一些有用变量的相关性很小时,在选取主成分时就很容易把它们漏掉,使得最终的预测模型可靠性下降。偏最小二乘回归可以解决这个问题,它采用对变量X和Y都进行分解的方法,从变量X和Y中同时提取因子,再将因子按照它们之间的相关性从大到小排列,要建立一个模型,只要决定选择几个因子参与建模就可以了。

5)非线性回归最小二乘法(Nonlinear Least Squares,NLS)

一般的非线性回归模型可以表示为[8]:

本文中,X是原油性质数据矩阵,β为待估计的参数向量,y是准备预测的原油的性质或反应产物分布,ε为随机误差。函数形式f(·)是已知的。与多元线性回归法类似,求取β,便可以建立非线性回归数学预测模型。

6)支持向量机(Support Vector Machine,SVM)

支持向量机于1995年由Vapnik首先提出,它是一种监督式学习的方法,它广泛的应用于统计分类以及回归分析中[9]。支持向量机的体系结构如图2所示。

本文中,X为原油性质矩阵,K为支持向量机的核函数,本文核函数选取为“radial basis”,b为偏置项,a为权重向量,则预测的原油性质或反应产物分布结果为:

1.3 校正理论模型开发软件

本文所有化学计量学方法都由R 2.13.0(http:///)开发,所用到的工具包(Packages)有:stats、e1071(LIBSVM)、ChemometricsWithR、MASS和chemometrics。

2 结果与讨论

利用化学计量学校正理论的目的就是为了建立性质与性质、性质与反应产物分布之间的数学预测模型。本文采用了六种不同的方法建立数学模型,各种方法在实际应用中存在不同(见表2)。例如:MLR、SR、PCR和PLS为线性方法,而NLS和SVM为非线性方法;在数据建模前,PCR、PLS和SVM需要对数据进行标准化处理,消除量纲和数量级不同引起的不引人注意的权重,而且这三种方法是将主成分分析后的因子作为自变量进行数据建模的;在数据建模过程中,PCR和PLS需要对特征参数“ncomp(Number of Components,主成分因子数)”进行优化,SVM需要对特征参数“gamma”和“cost”进行优化,达到对数据模型优化的目的。

本文为了研究化学计量学校正理论在原油数据分析中的应用,根据所收集的原油数据,重点分析研究原油粘度的预测,对原油反应产物分布预测进行探索性研究。

2.1 原油性质预测

粘度是评定原油流动性的重要指标,表征其分子间相对运动时因摩擦而产生的内部阻力大小,是原油加工、过程模拟等设计必不可少的基础物性数据。随着原油馏分的变重、沸点升高,其粘度增大。但在粘度测定过程中,升高温度会导致原油裂解,而且采用旋转粘度计法测定粘度,误差较大,因此有必要寻找新的预测粘度的方法。本文利用所收集的原油性质数据,结合化学计量学校正理论的六种方法,分别建立粘度的预测模型。

因为粘度分布范围很宽且不均匀(见图3),所以在关联过程中一般取粘度的对数与其它性质关联,取对数后的粘度箱线图见图4。

在数据建模过程中,粘度取对数后作为模型的因变量y,而其它的13个性质(密度、残炭、平均分子量、元素含量(H,C,N,S)、H/C、金属Ni和V的含量、饱和分、芳香分和胶质)作为模型自变量x。

首先,经多元线性回归(MLR)建立预测数学模型,并对数学模型分别进行方差分析与t检验。t检验结果给出了每个因变量的回归参数、常数项值、标准差、t值和相应的P值(见表3)。由方差分析可以得出模型的P = 2.2e-16 < 0.0001,故预测粘度的模型是有意义的。由t检验结果可见:密度、残炭、N含量、Ni含量和V含量回归参数的P值小于0.05,可认为这些自变量对粘度有显著的影响;而平均分子量、C含量、S含量、H/C、饱和分和芳香分回归参数的P值远远大于0.05,可认为这些自变量对粘度没有显著的影响;其它几个自变量,H含量和胶质对粘度影响则不太显著。

通过以上t检测结果,可以看出有些自变量对粘度没有显著影响,出现这种结果可能的原因是自变量之间存在“共线性”。因此,可以利用逐步线性回归法(SR),剔除一些变量,最终回归模型中,自变量均为显著的,也就是说最终用于建立粘度预测模型的原油性质对粘度都有显著的影响。利用逐步线性回归建立数学模型,由方差分析可以得出模型的P = 2.2e-16 < 0.0001,故预测粘度的模型是有意义的。由t检验结果可见(见表4),所有自变量P值都远远小于0.01,说明这些性质都对原油粘度有显著影响。

以上四种方法均为线性方法,本文还利用非线性回归最小二乘法(NLS)和支持向量机(SVM)两种非线性方法建立预测粘度的模型。其中SVM为人工神经网络技术,具有较强的人工智能功能和模拟多元非线性体系的能力,与传统的线性回归技术相比,它不仅具有自适应和自组织功能,可以很好的描述复杂关系的内在特征。SVM利用训练数据(数据库中的原油性质、反应产物分布数据)和优化算法分别得到特征参数“gamma”为0.4和“cost”为4,模型的核函数选取“radial basis”。另外一种非线性方法NLS通过优化选取自变量x,建立粘度预测模型为:

数学模型中,Viscosity为原油的粘度,Carbon Residue为原油的残炭,Molecular Weight为原油的平均分子量。

最终,利用数据库中的原油性质数据和上述六种校正理论方法,分别建立了数学模型,然后利用这些数学模型分别对20种原油油样的粘度进行预测,预测结果比较见表5,通过表5中各种方法预测值与测量值的决定系数可以看出,人工神经网络方法支持向量机预测结果最好,其它方法也能够达到较为准确预测原油粘度的目的。

此外,通过图7也可以看出支持向量机预测粘度值与实际测量值接近,达到较好的预测效果。

2.2 原油反应产物分布预测

通过上述六种方法预测原油粘度的结果来看,都能较为准确的预测原油的粘度,其中以人工神经网络方法支持向量机预测(SVM)结果最为准确。因此,本文将支持向量机也利用于原油反应产物分布的预测,用于预测原油催化裂化汽油的分布。

同样,在数据建模过程中,原油催化裂化汽油产物分布作为模型的因变量y, 13个原油关键性质(密度、残炭、平均分子量、元素含量(H,C,N,S)、H/C、金属Ni和V的含量、饱和分、芳香分和胶质)作为模型自变量x。

SVM利用训练数据(数据库中的原油性质、反应产物分布数据)和优化算法分别得到特征参数“gamma”为2和“cost”为4,模型的核函数选取“radial basis”,建立数学模型后,对32种原油的催化裂化汽油产物分布进行预测,预测结果与实际测量值的决定系数为0.96,两者之间的关系见图8。

从决定系数和图8中可以看出,通过人工神经网络方法支持向量机(SVM)建立的数学预测模型同样可以对原油反应产物分布有很好的预测效果。

3 结束语

1)利用化学计量学校正理论六种常见方法,将数据库中存储的原油性质数据作为训练数据,建立原油粘度预测模型,经过对六种预测模型的数学分析和比较,六种模型都可以对原油粘度进行准确的预测,其中以人工神经网络方法支持向量机预测结果最为准确。

2)利用人工神经网络方法支持向量机建立原油催化裂化汽油分布预测,同样可以达到很好的预测效果。从分析过程来看,如果要达到好的预测效果,要尽可能多的提供训练数据,如果训练数据过少,会影响到人工神经网络的预测效果。

参考文献:

[1] Xu C,Gao J,Zhao S,et al.Correlation between feedstock SARA components and FCC product yields[J].Fuel,2005,84(6):74-669.

[2] 史永刚.化学计量学[M].北京:中国石化出版社,2010.

[3] Kapur G S,Ecker A.Meusinger R.Establishing Quantitative Structure?Property Relationships:(QSPR)of Diesel Samples by Proton-NMR & Multiple Linear Regression(MLR)Analysis[J].Energy & Fuels,2001,15(4):8-943.

[4] 梁朝林,沈本贤,刘纪昌,等.用延迟焦化逐步回归法模型预测焦化产物的分布[J].华东理工大学学报:自然科学版,2009(2):91-185.

[5] Varmuza K.Introduction to Multivariate Statistical Analysis in Chemometrics[M].CRC Press,2009.

[6] 褚小立,许育鹏,陆婉珍.偏最小二乘法方法在光谱定性分析中的应用研究[J].现代仪器,2007(5).

[7] Molina,Uribe U N,Murgich J.Partial Least-Squares(PLS)Correlation between Refined Product Yields and Physicochemical Properties with the 1H Nuclear Magnetic Resonance(NMR)Spectra of Colombian Crude Oils[J].Energy & Fuels,2007,21(3):80-1674.

[8] 王斌会.多元统计分析及R语言建模[M].广州:暨南大学出版社,2010.

[9] Li H,Liang Y,Xu Q.Support vector machines and its applications in chemistry[J].Chemometrics and Intelligent Laboratory Systems, 2009,95(2):98-188.

上一篇:仙女龙大型新手向攻略 飘逸的空中精灵 下一篇:Linux 嵌入式系统教学课程改革探索