决策树算法在农业经济发展中的应用研究

时间:2022-02-16 05:32:12

决策树算法在农业经济发展中的应用研究

【摘 要】农业产值的问题涉及多种因素,本文引入决策树中的ID3算法对其进行分析。以临县近20年农业数据为依据,并根据ID3算法形成预测决策树,结合农业实际情况对初步生成的树进行处理,最后通过实验证明,生成符合实际情况的决策树,有助于农业产值的提高。

【关键词】决策树 ID3算法 农业产值 时空复杂度

一、引言

随着时代的发展,信息产业的发展越来越快,其在社会各行各业的应用也越来越广泛而作为人均收入不高、发展较为缓慢的临县来说,将信息化技术应用在其经济发展的过程中,更有其现实意义。在临县发展的过程中,农业方面积累了大量的数据信息,这些原始数据信息中隐藏着大量的有价值的信息,但目前的数据库管理系统并不能发掘出这些数据中存在的规则和关系。本文采用决策树技术对20年农业发展发面的数据进行了初步的数据挖掘尝试,通过ID3算法形成了分类预测决策树,通过实验验证产生规则集,为以后农业发展决策提供支持。

二、决策树的概念介绍

数据挖掘是指对海量的数据集或是数据库中大量的、不完整的、有噪声的原始数据进行分析和处理,从而提取出人们事先不知道的,但是潜在有用的知识、信息、模型和趋势的过程。数据挖掘过程需经由三个阶段来完成:数据预处理阶段、模型设计阶段和数据分析阶段。

目前生成决策树的最常用的算法有ID3算法、C4.5算法和CART算法等。在常用算法中,ID3算法是比较简单易懂发展完善且易于实现的算法,本文则依此为生成决策树基本算法。

三、决策树经典算法 ID3

ID3算法是一个贪心算法,它采用自上而下,分而治之的策略,通过不断的循环处理,逐步求精,直到寻找到一个相对精准的决策树,它构造的决策树是一个自顶向下的类似于IF---Then的规则树,采用这种方法得到的构造树结构比较简单,在构造过程中计算量较小,而且比较适合大规模数据集的学习问题的使用。

在ID3算法中,信息熵的下降速度是其中选取测试属性的关键的标准。基于熵进行的属性选择过程如下:

假定设训练子集PN中含有P个正面的实例和N个反面的实例,则我们设PZ和PF是训练子集PN的2个训练子集,其中把PZ称作是正例集,而把PF称作是训练子集的反例集。则一个实例属于正例集PZ的概率为p/(p+n),属于反例集PF的概率为n/(p+n),那么信息熵可以表示为:

所以,以属性A作为决策树根的信息增益为: (3.3)。

从(3.3)中可以看出,当(3.2)中的E(A)的值越小时,信息增益gain(A)就越大。在ID3算法中,我们选取信息增益最大gain(A)最大的属性来作为决策树的根,然后递归地对新分裂的子集进行类似的运算,就可以生成所需要的决策树。

四、ID3算法在的应用及结论

(一)数据预处理

影响农业产值的因素很多,光从数据本身我们无法明确哪些因素是主要因素,以及是如何影响农业产值的。因此,把我们所关心的认为可能对农业产值发展的因素集中起来,构造决策树进行分析,然后通过对决策树进行剪枝,将影响相对比较小的因素排除,确定其中的主要因素,生成规则。

接下来进行数据形式进行概化处理,即将低层次的原始数据转换成高层次的概念,以便进行数据挖掘处理。

(二)数据挖掘处理

因为要考察其他各个因素对生产总值的影响,所以选取生产总值作为训练子集,则p=8,n=13,其信息熵可以表示为:=0.959

以各个属性为测试属性的期望信息熵:E(农业人口)=0.551,E(播种面积)=0.309,E(畜牧情况)=0.483,E(平均气温)=0.976,E(日照时间)=0.915,E(无霜期)=0.925,E(降雨量)=0.758;对各个属性计算其信息增益结果为:gain(农业人口)= 0.408,gain(播种面积) =0.650,gain(畜牧情况) =0.476, gain(平均气温)=-0.107, gain(日照时间)= 0.044, gain(无霜期) =0.034, gain(降雨量) =0.201;我们不难看出获得信息增益最大的属性是播种面积,即播种面积对于农业产值的影响是最大的,所以选择播种面积作为分类决策预测模型树的根。类似地进行计算,则可得到分类规则决策树图1所示:

(三)结果与分析

应用上述的模型与决策树算法,从数据库中抽取记录作为测试集来生成影响农业生产总值的规则,加入规则库中,下面列出几条主要的规则:

1.播种面积=大于98%,畜牧情况=数目多,降雨量=多,则农业产值=高。2.播种面积=大于98%,畜牧情况=数目小,则农业产值=低。3.播种面积=大于98%,畜牧情况=数目多,降雨量=小,则农业产值=低。4.播种面积=小于98%,平均气温=高,无霜期=长,则农业产值=高。5.播种面积=小于98%,平均气温=高,无霜期=短,则农业产值=低。6.播种面积=小于98%,平均气温=低,日照时间=长,则农业产值=高。7.播种面积=小于98%,平均气温=低,日照时间=短,则农业产值=高。

五、结束语

本文应用数据挖掘中常见的ID3算法对影响临县农业产值的各方面因素进行分析。利用决策树理论,对初选的数据进行分析,建立了比较合理有效的数据仓库,通过决策树中的ID3算法生成决策树,并进行修剪,从而得到了比较符合实际的决策树分类预测模型。这可以为政府在今后的农业生产安排提供更为有效的参考意见。

上一篇:面对面新闻采访技巧小议 下一篇:论如何培养大学生的英语策略型阅读能力