数据挖掘在煤炭贸易管理系统中的应用研究

时间:2022-08-03 08:58:54

数据挖掘在煤炭贸易管理系统中的应用研究

摘要: 随着市场竞争的日益激烈和计算机技术的迅猛发展,数据挖掘技术在煤炭贸易管理系统中的应用尤为重要。本文结合当今比较流行的数据挖掘技术,分别利用线性回归和加权一次移动平均算法对销售量进行了预测。

Abstract: With the increasingly fierce market competition and the rapid development of computer technology, application of data mining technology in the coal trade management system is particularly important. In this paper, combining today's more popular data mining techniques, using linear regression and the weighted moving average algorithm ,sales were predicted.

关键词: 煤炭贸易管理系统;数据挖掘;线性回归;加权移动平均

Key words: coal trade management systems;data mining; linear regression;weighted moving average

中图分类号:TP311 文献标识码:A文章编号:1006-4311(2010)08-0123-02

0引言

当前国内开发的大多数煤炭管理系统是为公司管理煤炭业务而开发,只能实现数据录入、分类查询信息、汇总信息、定时发送短信息等功能。决策结果只能是基于决策者的直觉而不是数据库中丰富的信息。为此数据挖掘技术的应用基于此而产生。国内将数据挖掘应用于煤炭贸易的例子并不多见。本文将分别利用线性回归和加权一次移动平均算法对煤炭年度销售进行预测。

1数据挖掘技术简述

1.1 数据挖掘的概念数据挖掘(Data Mining)就是从大量的、不完全的、有声的、模糊的、随机的数据中,提取隐含在其中的、人们预先不知道的、但又是潜在有用的信息和知识的过程。

1.2 数据挖掘的方法

1.2.1 分类法分类就是找出一个类别的概念描述,并用这种描述来构造模型,一般用规则或决策树模式表示(该模型能把数据库中的数据项映射到给定类别中的某一个)。

1.2.2 关联分析法关联分析是指在数据库中寻找值的相似性,一般用支持度和可信度两个阈值来度量关联规则的相关性。

1.2.3 聚类分析法我们将数据库中的数据分组成为由类似的数据组成的多个类的过程称为聚类,由聚类生成的每个类是一组数据的集合,同一类中的数据彼此相似,不同类中的数据相异。

1.2.4 预测法预测是利用历史数据找出变化规律,建立模型,并由此模型对未来数据的种类及特征进行预测。典型的预测方法是回归分析,即用大量的历史数据,以时间为变量建立回归方程。

1.2.5 时序模式法时序模式是指通过时间序列搜索出的重复发生概率较高的模式,与回归一样,它也是用已知的数据预测未来的值。

2二元线性回归法应用研究

基本过程是先建立数据仓库,提取分析要用的数据源,进行数据处理后,利用大量数据,建立线性回归模型,得出销售量与顾客购买频率和年份影响因素之间的联系,然后通过找出的规律可以预测煤炭在下个年度销售量,从而保证供应。下面我们以二元线性回归分析预测法为例,说明多元线性回归分析预测法的应用。

二元线性回归分析预测法,是根据两上自变量与一个因变量相关关系进行预测的方法。二元线性回归方程的公式为:=a+bx+bx

式(1)中::因变量;x、x:两个不同自变量,即与因变量有紧密联系的影响因素。

a、b、b:是线性回归方程的参数。a、b、b是通过解下列的方程组来得到。

∑y=na+b∑x+b∑x

∑xy=a∑x+b∑x+b∑xx

∑xy=a∑x+b∑xx+b∑x

本文主要通过公司运营时间预测顾客购买频率分,进而找出方法来发展客户群,再根据年份和顾客购买频率分预测年度销售量,若预计2007年煤炭销售量,首先用一元回归分析预测法预测2007年顾客购买频率分,再用二元回归分析预测法预测2007年煤炭销售量。

从表1中可以看出煤炭销售量同年份和顾客购买频率有一定关系,可试用二元线性回归预测法进行预测。其具体过程如下:

Y:煤炭销售总量;(单位:吨)x1:年份(单位:年) ;x2:顾客购买频率(单位:分)

2.1 解下列方程组,求a、b、b参数 ,把有关数据代入上面方程组,解方程组得:a=13.4517,b=-0.0186,c=1.3101

由此建立的二元线性回归方程为:

=a+bx+bx=13.4517-0.0186x+1.3101x

这个回归方程必须经过检验才能作为预测模型。

2.2求相关系数,二元线性回归方程的相关系数公式如下:

γ=

为了计算相关系数γ,需列表计算∑(Y-)和∑(Y-)

===84.21把表2、3有关数据代入式

γ===0.987

相关系数为0.987,说明自变量X1、X2与因变量Y之间有高度相关关系。

2.3 作回归标准差检验

S===9.32、==0.01106=11.06%

由此说明二元线性回归方程=13.4517-0.0186x1+1.3101x2用于预测,有较高的精确度。

2.4 计算预测值当年份为2007年,采用一元回归分析预测法预测顾客购买频率分,用最小二乘法求解α,β;β=15.32,α=13.385,由此建立的一元线性回归方程为:=α+βx=13.385+15.32x;

当2007年公司运营时间为9年时,预测顾客购买频率分为151。依据题意,x1=2007,x2=151,将它们代入二元线性回归方程。

=13.4517-0.0186×2007+1.3101×151=173.9466

因此该年度煤炭需求预测值为173.9466万吨。

3加权一次移动平均预测法的应用研究及改进

设{yt}为时间序列,取移动平均的项数为n,设yt是第t期的实际值,则第t+1期的预测值的计算公式为:

=

说明:项数n的取值应该根据时间序列的特点而定, n大:降低移动平均数的敏感性,影响预测的准确性,n小:移动平均数易受随机变动影响,难以反映实际趋势, 一般:n的大小能包含季节变动和周期变动的时期较好。

针对煤炭销售的历史数据特点,数据是逐渐递增的规律,经过反复训练使n=1合理,也就是说结果只与上个周期有关。

Wi表示权重。如何选择权数Wi?

M=S-S1=646.08 S为前8年总销售量,S1为1999年销售量;N=S-S2=518.38 S为前8年总销售量,S2为2006年销售量;W1=M:N=1.2463

针对煤炭企业数据特点对原始模型进行改进后如下:

=W1Y2006

因此2007年销售量为Y2007=WY2006=1.2463×155.3=193.5504,由于此预测模型只和销售序列有关,没有考虑其他影响因素,此预测模型的误差较大,所以不如二元线性回归分析法应用效果好。但对于不同的煤炭企业不同的阶段的销售预测有着不同的参考价值。

由于国家能源产业政策和宏观调控的影响,煤炭销售情况受各种因素影响,并不是十分稳定,因此本文介绍的二元线性回归分析法和加权一次移动平均预测法的数据挖掘技术应用方法仅供煤炭贸易集团和公司参考,同时也可为煤炭企业保证煤炭供应起到决策的辅助作用。

参考文献:

[1]冯勤.基于回归数据挖掘预测系统的分析与研究:[硕士学位论文].天津:天津大学电子信息工程学院,2005.

[2]数据挖掘在汽车销售决策支持系统中的应用:[硕士学位论文].济南:山东大学计算机科学与技术学院,2004.

[3]David Hand Heikki Mannila Padhraic Smyth著.数据挖掘原理.张银奎等译.北京:机械工业出版社,2005.233-247.

上一篇:浅析短跑运动员的力量训练 下一篇:浅谈降低施工项目成本的途径和措施