基于多元逐步回归分析的葡萄酒理化指标模型研究

时间:2022-03-01 01:39:43

基于多元逐步回归分析的葡萄酒理化指标模型研究

[摘 要]:本文以2012年全国数学建模本科组A题为研究对象。经过对附件二提供的指标数据的预处理,采用多元逐步回归法,建立了葡萄酒理化指标与酿酒葡萄理化指标的多元逐步回归模型,求解得出它们之间的函数表达式和复相关系数,可以说明他们之间的关系显著程度并通过了检验论证。

[关键词]:葡萄酒评价;多远逐步回归法;SAS软件

【分类号】TS262.6

1逐步回归理论知识[1]

逐步回归分析时在考虑的全部自变量中按其对 的贡献程度大小,由大到小地逐个引入回归方程,而对那些对 作用不显著的变量可能是中不被引入回归方程。另外,已被引入回归方程的变量在引入新变量进行 检验后失去重要性时,需要从回归方程中剔除出去。

建立逐步回归模型一般步骤:

步骤1:计算变量均值 和差平方和 。其中 分别为第 个变量、 的均值, 表示第 个变量的第 个数、 的差平方和。各自的标准化变量为:

(1)

步骤2: 计算 的相关系数矩阵 , 是由相关系数 组成的 矩阵。

步骤3: 设已经选上了 个互不相同的变量: 经过变换后为 。对 逐一计算标准化变量 的偏回归平方和:

,记 (2)

作 检验:

(3)

对给定的显著性水平 ,拒绝域为 ,若 则剔除该变量;反之,则引入新变量。

步骤 4: 循环步骤3 ,直至最终选上了 个互不相同变量 , 经过变换后为 ,则对应的回归方程为:

(4) 通过代数运算可得: 。 (5)2 基于多元逐步回归分析葡萄酒理化指标模型

2.1 解模型的准备

首先我们用Excel做出葡萄酒与葡萄对应的指标折线图,并观察它们之间的是否存在线性关系。

经分析得到的折线图可以看出葡萄与葡萄酒的关系差不多都为线性关系,以下我们用逐步回归分析法分别来建立红白葡萄酒中的指标和其对应葡萄中的各个指标的函数关系式,同时用复相关系数来说明它们指标之间的关系。

2.2 逐步回归分析的求解过程

在处理数据时,若遇到某项指标测试多次,则取其平均值,若只测试一次的。整理好后根据SAS解出得结果和理论知识可以求得它们的函数表达式,其中 , 按顺序表示酿酒葡萄的一级指标。

1)对红葡萄酒各项指标分别进行逐步回归分析方法求解。

第一项指标花色苷:

红葡萄酒和红葡萄中的花色苷的函数表达式:

(6)

由运行结果可知,对于 : , : , : 。由复相关系数可以看出 与 、 、 的线性关系是很显著的,与红葡萄中的其他因素的关系不是很显著。

第二项指标总酚:

红葡萄酒和红葡萄中的总酚的函数表达式:

(7)

由运行结果可知,对于 : , : , : , : 。 它是同一种物质之间的转换,由附件给出的数据我们可以知在变化的过程中是减少的,其复相关系数为: 。由得出的复相关系数可以看出 与 、 、 、 的线性关系是比较显著的。

第三项指标单宁:

红葡萄酒和红葡萄中的单宁的函数表达式:

(8)

由运行结果可知,对于 : , : , : , : , : 。由解出的复相关系数可以看出 与 、 、 、 和 的线性关系是高度显著的。

第四项指标黄酮:

红葡萄酒和红葡萄中的黄酮的函数表达式:

(9)

由程序运行结果可知,对于 : ,故 与 的联系较差。第五项指标白藜芦醇:

红葡萄酒和红葡萄中的白藜芦醇的函数表达式:

(10)

由运行结果可知,对于 、 、 、 来说,它们的复相关系数都小于0.8,可以说明 与 、 、 、 的线性关系显著性较差。而 的复相关系数大于0.8( ),所以 与 的线性关系较强。

第六项指标L*(D65):

红葡萄酒和红葡萄中的L*(D65)的函数表达式:

(11)

由运行结果可知,对于 、 来说,它们的复相关系数都小于0.8,可以说明 与 、 的线性关系显著性较差。但 、 的复相关系数大于0.8( 、 ),所以 与 、 的线性关系较强。

第七项指标a*(D65):

红葡萄酒和红葡萄中的a*(D65)的函数表达式:

(12)

由运行结果可知,对于 、 来说,它们的复相关系数都小于0.8,可以说明 与 、 的线性关系显著性较差。

第八项指标b*(D65):

红葡萄酒和红葡萄中的b*(D65)的函数表达式:

(13)

由运行结果可知,对于 、 、 来说,它们的复相关系数都小于0.8,可以说明 与它们的线性关系显著性较差。

2)对白葡萄酒各项指标分别进行逐步回归方法求解。

第一项指标总酚:

白葡萄酒和白葡萄中的总酚的函数表达式:

(14)

由运行结果可知,对于 : , : ,可以由它们之间的复相关系数看出 与 、 的线性关系比较差。

第二项指标单宁:

白葡萄酒和白葡萄中的单宁的函数表达式:

(15)

由运行结果可知,对于 : ,对于 : ,对于 : ,对于 : 。由解出的复相关系数可以看出 与 、 、 、 的联系比较差。

第三项指标黄酮:

白葡萄酒和白葡萄中的黄酮的函数表达式:

(16)

由运行结果可知,对于 : , : , : , : , : , : , : , : 。由解出的复相关系数可以看出 与 、 、 、 、 之间的联系很大,其余的联系较小。

第四项指标白藜芦醇:

白葡萄酒和白葡萄中的白藜芦醇的函数表达式:

(17)

由运行结果可知,对于 、 、 来说,它们的复相关系数都小于0.8,可以说明 与 、 、 的线性关系显著性较差。

第五项指标L*(D65):

红葡萄酒和红葡萄中的L*(D65)的函数表达式:

(18)

由运行结果可知,对于 、 、 、 来说,它们的复相关系数都小于0.8,可以说明 与 、 、 、 的线性显著性都很差。

第六项指标a*(D65):

白葡萄酒和白葡萄中的a*(D65)的函数表达式:

(19)

由运行结果可知,对于 、 、 来说,它们的复相关系数都小于0.8,可以说明 与 、 、 的线性关系显著性较差。

第七项指标b*(D65):

白葡萄酒和白葡萄中的b*(D65)的函数表达式:

(20)

由运行结果可知,对于 、 、 、 来说,它们的复相关系数都小于0.8,可以说明 与它们的线性关系显著性较差。而 的复相关系数大于0.8( ),说明它与 存在线性关系。

综上所述,可知红葡萄酒、白葡萄酒中的各项理化指标不一定对应酿酒葡萄的理化指标,它与酿酒葡萄中的其他理化指标也存在线性关系。并且有些不是对应的理化指标比对应的理化指标存在的线性关系还要显著。说明葡萄酒和酿酒葡萄之间的理化指标不一定是相应转化的,还可以由其他理化指标转化而来。

参考文献:

[1]宋建民,陈敏江,运用逐步回归分析法对河北省国民经济的分析与研究[J],科技信息,2008,第35期。

[2]薛毅,数学建模基础[M],北京:科学出版社,2011。

[3]李德宜,李明,数学建模[M],北京:科学出版社,2009。

[4]徐全智, 杨晋浩,数学建模[M ],北京: 高等教育出版社, 2004。

[5]范金城,林长海,数据分析[M],北京:科学出版社,2010。

[6]胡国定, 张润楚, 多元数据分析方法[M ],天津: 南开大学出版社, 1990。

作者简介:

王春利(1980―),男,吉林长春人,硕士,讲师,从事差分方程相关理论研究。

基金资助:院级教改一般项目(2013JGY19)

上一篇:食品安全检测存在的问题以及相应的解决方案 下一篇:浅析企业合同管理的问题与对策