农产品近红外光谱分析中的多模型共识方法研究

时间:2022-10-15 09:58:48

农产品近红外光谱分析中的多模型共识方法研究

摘要:基于多模型共识的基本思路结合近红外光谱,建立了多模型共识偏最小二乘回归方法(cPLS),从训练集随机取样建立一系

>> 近红外光谱分析技术在农产品方面的应用研究 近红外光谱分析技术在农产品食品品质在线无损检测中的应用研究进展 用于中药纯化过程的近红外光谱分析新方法 浅谈近红外光谱分析技术在油品分析中的应用 近红外光谱分析技术快速检测液态乳制品品质的研究 近红外光谱分析技术应用 红外光谱分析技术在中药定性检测中的研究 基于近红外光谱分析技术的丹参多酚酸大孔吸附树脂柱色谱过程监测方法 利用近红外光谱分析技术检测油菜主要品质性状研究 加料烟片近红外光谱分析影响因素研究 基于近红外光谱分析技术在肉类产品检测中的鉴定及预测精度 近红外光谱分析技术在固体制剂生产中的应用 红外光谱分析法在火灾调查中的运用 简析近红外光谱分析技术在牛奶化学分析上的应用 有关近红外光谱分析技术用于石油燃料质量检测的探讨 不同干燥方法对广藿香中百秋李醇含量影响的近红外光谱分析 近红外光谱分析技术快速检测冰温贮藏牛肉品质 利用红外光谱分析茶叶产地 红外光谱分析特色化教学研究 莴苣霜霉病的傅里叶变换红外光谱分析 常见问题解答 当前所在位置:)免费下载。随机选取数据集样本总数的80%(即64例)作为训练集,其余20%的样本(16例)作为独立测试集,用于模型性能评价;并随机抽取训练集中80%的样本作为训练子集用于建模,其余样本作为检验集用于模型参数优化。

2 结果与讨论

2.1 对玉米湿度的分析

2.1.1 隐变量数的确定 PLS建模过程中首先要解决的是隐变量数的选择问题。在训练子集上采用PLS算法进行建模,然后对检验集进行预测,图2为隐变量数取1~20时的校正集误差均方根及预测集预测误差均方根。由图2可见,当所采用的PLS隐变量数变化时,所建模型精度也会发生变化。开始时,误差均方根均较大且不稳定;随着隐变量数的增大,误差均方根逐渐减小;当隐变量数大于10时,误差均方根基本趋于稳定。考虑模型精度及计算效率两个方面,选择隐变量数为10进行下一步的计算。

2.1.2 成员模型的接纳标准 用单模型PLS对检验集进行50次重复预测时,平均相对误差的分布情况如图3所示,可见绝大多数情况下的平均相对误差为0.12%~0.22%,故在cPLS中分别采用0.12%、0.14%、0.16%、0.18%、0.20%及0.22%的平均相对误差作为接纳成员模型的判据,模型总数均为100,对检验集进行预测,结果以不同平均相对误差为接纳标准时,随着相对误差的提高,预测误差均方根先下降,然后略有升高,其中平均相对误差0.20%对应的预测误差均方根最低。故本研究采用0.20%作为误差判据的阈值,即成员模型的接纳标准。

2.1.3 模型总数的确定 从cPLS的原理可以看出,多模型共识算法的优势在于每个成员模型给出不同的预测结果时,最后给出一个稳定可靠的结果;所以理论上成员模型数越多,cPLS的结果越可信,但模型数过多显然影响计算效率。因此,成员模型的总数是另一个重要参数,对预测结果的稳定性和准确性起着关键的作用。本研究选取模型数50、100、200、500进行考察,检验集预测误差均方根随模型数的变化可用图4的箱形图表示。箱形图是统计学、品质管理等领域常用的,用作显示一组数据分散情况资料的统计图。若预测误差均方根分布比较集中,则说明结果比较稳定。由图4可见,模型数为100的结果比其余三者稍显集中,且异常样本数较少。综合考虑计算的效率及结果稳定性,后面的处理过程中成员模型数都取100。

2.1.4 cPLS对玉米湿度的预测结果 由于cPLS的预测结果采用了多个模型的平均值,预测稳定性是cPLS算法的重要特点之一。根据上述确定的隐变量数、成员模型接纳标准及模型总数等条件,对独立测试集进行预测。为了考察预测结果的稳定性,重复进行50次计算,结果如图5所示。为了进一步评价算法的稳定性及预测准确性,用单模型PLS回归方法进行了比较。以PLS在训练集上建模(隐变量数为10),对独立测试集进行预测,重复进行50次计算,结果见图5。

在50次重复运算的结果中,cPLS方法的预测误差均方根均值为0.016 0,标准偏差为2.735 0×10-4;而PLS对预测集预测的预测误差均方根均值为0.020 7,标准偏差为4.753 0×10-3。可见PLS算法50次预测的预测误差均方根之间相差较大,表现出模型的稳定性较差;而cPLS算法50次预测的预测误差均方根之间的波动很小,表现出非常好的模型稳定性,且其预测准确性也明显比单模型PLS高。

2.2 对玉米淀粉、蛋白质及油分含量的分析

用cPLS和单模型PLS回归方法对样品中的淀粉、蛋白质及油分含量进行分析。对独立测试集重复50次预测的结果如表1所示。很显然,cPLS的预测结果无论从准确性还是稳定性来讲,均优于PLS。尽管两种方法对独立测试集中蛋白质含量预测的预测误差均方根均值相差不大,但PLS进行多次预测的标准偏差较大,说明多次预测时波动较大,而cPLS则明显稳定得多。因此,cPLS预测的结果更加稳定可靠。

3 结论

由于多个模型往往比相应的单模型能更有效地从数据的不同方面和不同层面抽取并表达自变量和因变量之间的复杂关系,因而该方法有望解决过拟合问题,提高模型的稳健性和预测精度。而且多模型共识方法在取样时,是多次随机从训练集中取样,这就克服了单模型方法单次取样可能带来的采样不合理问题。也就是说,cPLS与传统的单模型方法相比,所建立的模型更加稳健可靠,预测的准确性也明显提高。因此,cPLS在克服单模型方法由于样品复杂且校正集样品较少而不稳定的方面具有一定的实际意义。

参考文献:

[1] STARK E,LUCHTER K,MARGOSHES M. Near-infrared analysis(NIRA): A technology for quantitative and qualitative analysis[J]. Applied Spectroscopy Reviews,1986,22(4):335-399.

[2] 孙 通,徐惠荣,应义斌.近红外光谱分析技术在农产品/食品品质在线无损检测中的应用研究进展[J].光谱学与光谱分析,2009, 29(1):122-126.

[3] 褚小立,许育鹏,陆婉珍.用于近红外光谱分析的化学计量学方法研究与应用进展[J].分析化学,2008,36(5):702-709.

[4] 姚 霞,田永超,倪 军,等.水稻叶片色素含量近红外光谱估测模型研究[J].分析化学,2012,40(4):589-595.

[5] 李艳坤,邵学广,蔡文生.基于多模型共识的偏最小二乘法用于近红外光谱定量分析[J].高等学校化学学报,2007,28(2):246-249.

[6] LI Y K, SHAO X G, CAI W S. A consensus least squares support vector regression (LS-SVR) for analysis of near-infrared spectra of plant samples [J]. Talanta,2007,72(1):217-222.

[7] CHEN D,CAI W S,SHAO X G. A strategy for enhancing the reliability of near-infrared spectral analysis[J]. Vibrational Spectroscopy,2008,47(2):113-118.

[8] SHAHBAZIKHAH P, KALIVAS J H. A consensus modeling approach to update a spectroscopic calibration [J]. Chemometrics and Intelligent Laboratory Systems,2013,120(1):142-153.

[9] LI Y K. Determination of diesel cetane number by consensus modeling based on uninformative variable elimination[J]. Analytical Methods,2012,4(1):254-258.

上一篇:黑龙江垦区农业数字科普网络信息系统平台的设... 下一篇:欧文氏杆菌铁代谢相关基因的生物信息学分析