基于层次分析法的数据挖掘技术研究与应用

时间:2022-01-08 01:29:59

基于层次分析法的数据挖掘技术研究与应用

摘要:构建数据挖掘算法模型是数据挖掘技术研究的重点和难点。层次分析法是一种定性与定量相结合的多准则决策方法,可以将人的主观判断用数量形式表达和处理。研究和实现基于层次分析法数据挖掘技术,可进一步拓宽数据挖掘算法模型的类型,对数据挖掘技术的应用具有普遍意义。

关键词:数据挖掘;数据挖掘算法;层次分析法;判断矩阵

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2008)34-1542-03

The Research and Application of Data Mining Based on AHP

FAN Peng-xuan1, CHEN Song1, SUN Jing2

(1.School of Information Science and Engineering, Chongqing Jiaotong Univ., Chongqing 400074, China;2.Zhengzhou Electronic Information Vocational & Technical College, Zhengzhou 451450, China )

Abstract: Building the data mining algorithms and models is the focus and difficulty of the study in the data mining field. The Analytic Hierarchy Process is a kind of multiple-criterion measures combined quality and quantity to illustrate subjective judgment in quantitative index. Researching and achieving data mining technology that based-on the Analytic Hierarchy Process can further expand the types of Data Mining algorithms and models, and also have a universal meaning to the application of the Data Mining technology.

Key words: Data Mining; the Analytic Hierarchy Process; Data Mining Algorithm; Comparison measuring

1 引言

数据挖掘(Data Mining)即知识发现,是指从大量的、不完全的、有噪声的、模糊的、随机的、实际应用数据库中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识[1]。数据挖掘技术伴随着“如何不被海量信息淹没,而是从中发时发现有用的知识、提高信息利用率?”的问题而快速发展并应用起来。数据挖掘是一门汇集统计学、机器学习、数据库、模式识别、知识获取、专家系统、数据可视化和高性能计算等多种学科的新兴交叉学科,它为自动和智能地把海量的数据转化为有用的信息知识提供了有力的手段。

数据挖掘是一个多阶段数据处理过程,一般而言主要包括以下几个步骤[2-3]:1) 确定挖掘目标;2) 建立目标数据集;3) 数据预处理;4) 选择数据挖掘功能;5) 选择适合的数据挖掘算法进行数据挖掘;6) 模式评估。在这个数据处理过程中,如何构建一个适合且有效的数据挖掘算法模型进行有效的数据挖掘是最重要的步骤之一,因此也一直是数据挖掘领域研究的重要和关键问题。

本文探讨了一个已经广泛应用于处理社会、政治、经济、技术等结构较为复杂,决策准则较多而且不易量化的决策问题的层次分析方法在数据挖掘技术中的应用,从而提出一个可应用于数据挖掘的技术,层次分析方法。

2 层次分析方法的原理与步骤

2.1 层次分析法的原理

层次分析法[4-5](Analytic Hierarchy Process简称AHP)是一种定性与定量相结合的方法,它能将决策者对复杂的决策思维过程系统化、模型化、数字化,可解决多目标、多层次、多准则的决策问题。尤其是对于各个评价指标权重因子的确定。其思路主要是:1) 把复杂问题中各种因素通过划分相互联系的有序层次使之条理化;2) 根据对一定客观现实的判断就每一层次的相对重要性给予定量表示;3) 利用数学方法确定表达每一层次的全部元素相对重要性次序的权值;4) 通过排序结果分析、解决问题。

2.2 层次分析法的步骤

层次分析法的过程可以分为以下几个步骤:

1) 建立层次结构模型。根据问题的性质和要达到的目标,将问题分解为不同的组成因素,并按照因素间的相互关联影响以及隶属关系,将因素按不同层次聚集组合,形成一个多层次的分析结构模型。同一层的诸因素从属于上一层的因素或对上层因素有影响,同时又支配下一层的因素或受到下层因素的作用。主要分为最高层、中间层和最底层。其中,最高层:是目标层,表示解决问题的目的,即层次分析要达到的总目标。中间层:包括准则层和指标层,表示采取某一方案来实现预定总目标所涉及的中间环节。最底层:是方案层,表示要选用的解决问题的各种措施、策略、方案等。

2) 构造判断矩阵。任何系统分析都以一定的数据信息为基础。层次分析法的数据信息基础主要是决策者每一层元素的互相重要性给出的判断,即判断矩阵。判断矩阵可以表示上层某一元素所支配的下层有关元素之间的相对重要性。也就是说下层各因素两两比较,那一个比较重要,重要程度如何。为了使决策判断定量化,形成数值判断矩阵,通常采用通常采用A.L.Saaty建议的1-9刻度法。如表1所示。

采用9级标度法给元素赋值构造的判断矩阵一般为A。

3) 层次中的单排序。在得到判断矩阵的基础上,可以用数学法求得某一层中某个因素对上一层次某一因素的影响程度,排除次序来。由于判断矩阵本身存在相当的误差,而层次但排序中各因素的权重值,从本质上讲是表达定性的概念,因此可用近似方法来解判断矩阵的最大特征值和特征向量。

4) 用规范几何法求判断矩阵的特征值和特征向量。

① 对判断矩阵每一列规范化■

② 求规范列的平均值■ ,则W=[W1 W2…Wn]T即为所求的特征向量。

③ 计算判断矩阵的最大特征根

■,其中(AW)I表示向量AW的第i个元素。

5) 判断矩阵的一致性检验

在构造判断矩阵的过程中,通过引入1~9标度法,是定性问题定量化。从理论上分析得到:如果判断矩阵是完全一致的成对比较矩阵,应该有bikbkj=bij,但实际上在构造成对比较矩阵时要求满足上述众多等式是不可能的。因此只要求判断矩阵有一定的一致性。即要求判断矩阵的绝对值最大的特征值和该矩阵的维数相差不大。检验其一致性的步骤如下:① 计算一致性指标CI=(λmax-n)/(n-1), λmax为判断矩阵的最大特征值。② 计算平均随机一致性指标 CR=CL/RI,式中RI表示同阶平均随机一致性指标,它只与矩阵阶数有关。

6)层次总排序

计算组合权向量并做组合一致性检验。计算最下层在准则层度量下对目标层的组合权向量,并根据公式做组合一致性检验,若检验通过,则可按照组合权向量表示的结果进行决策,否则需要重新考虑模型或重新构造那些一致性比率较大的成对比较阵。层次总排序需要从上之下逐层进行。

3 基于层次分析法的虚拟投资项目数据挖掘应用

现在我们假设某公司拥有一笔投资资金,目的是选择合适的投资项目,以期获得最大的受益。我们可以用层次分析法来分析各个项目的投资与收益比,从而选择最佳的投资方案。

3.1 层次分析法对投资项目的层次结构数据分析

首先进行系统分析。目标层“最优项目”。准则层为总投资额、全部投资财务内部收益率、自有资金财务内部收益率、贷款偿还期、投资回收期、专家对项目风险评价、盈亏平衡点。方案层为投资项目1、投资项目2……、投资项目n。

3.2 层次分析法的投资项目数据挖掘

假设以下为待选投资项目的各方面基本情况[6]。(假设数据,如下表2)

表2 项目基本情况

1) 目标层与标准层

经专家比较法得以下“总投资额I1,收益率I2,利润率I3,贷款期I4,投资回收期I5,盈亏平衡点I6,风险预测I7 ”构造判断矩阵如表3所示。

λmax=■■=7.01369 CI=0.00228

CR=CI/CR=0.00228/1.32=0.00173<0.1(一致性通过)

2) 准则层对方案层“项目1、项目2、项目3、项目4、”的判断矩阵按照以下原则确定判断矩阵。

① 总投资额(表4为投资额判断矩阵)

λmax=■■=4.031CI=0.0103

CR=CI/CR =0.0103/0.9=0.011482<0.1(一致性通过)

同样的方法可计算得

② 内部收益率 CR=CI/CR =0.0103/0.9=0.011482<0.1(一致性通过)

且其特征向量 W=[0.76 2.21 0.45 1.32]T

③ 利润率 CR=CI/CR =0.0103/0.9=0.011482<0.1(一致性通过)

且其特征向量 W=[0.76 2.21 0.45 1.32]T

④ 贷款期 CR=CI/CR =0.0103/0.9=0.011482<0.1(一致性通过)

且其特征向量W =[1.32 0.76 2.21 0.45]T

⑤ 投资回收期CR=CI/CR =0.0103/0.9=0.011482<0.1(一致性通过)

且其特征向量 W =[2.21 0.76 1.32 0.45]T

⑥ 盈亏平衡点CR= CI/CR =0.0103/0.9=0.011482<0.1(一致性通过)

且其特征向量W=[0.76 1.32 0.45 2.21]T

⑦ 风险预测CR=CI/CR =0.0103/0.9=0.011482<0.1(一致性通过)

且其特征向量W=[1.32 0.76 2.21 0.45]T

3) 总排序V

总排序表如表5所示。

CI=■WjCIj=0.07818RI=■WjCIj=6.831 CR=CR/RI=0.01144<0.1(一致性通过)

采用此层此分析法的数据挖掘结果表明,相对于选择最佳方案这个目标而言,相对优先顺序为:

项目2 > 项目3 > 项目4 > 项目1

综合以上分析,我们可得出项目2为最优方案,接下来依次是项目3、项目4和项目1。从而验证了层次分析法对此投资项目财务评价数据挖掘的有效性。

4 结论

近几年来,数据挖掘的研究和应用成为计算机领域富有挑战性的问题,各种挖掘方法层出不穷,优秀的挖掘算法可以给人们带来巨大的经济效益,使用户在激烈的竞争中立于不败之地。数据挖掘的主要步骤是建立数据挖掘模型算法进行知识发现的过程。论文验证了层次分析方法在数据挖掘中的的可行性及一致性。在数据挖掘过程中,基于层次分析方法的模型数据构建还需要进一步的提高,具体表现在数据层次的关联性,数据层次的分类等等。数据挖掘一开始就是面向应用的,其主要作用也在于其与现实结合的紧密性,随着经济技术的发展,数据挖掘也必将在未来获得越来越多的应用和并对经济发展与技术进步产生巨大的功效。

参考文献:

[1] 张云涛,龚玲.数据挖掘理论与技术[M].北京:电子工业出版社,2004.

[2] 黄解军,潘和平.数据挖掘技术的应用研究[J].计算机工程与应用,2003(2):78-81.

[3] 张云涛,龚玲.数据挖掘理论与技术[M].北京:电子工业出版社,2004.

[4] 许树柏.层次分析法原理[M].天津:天津大学出版社,1988.

[5] 马立平.层次分析法―现代统计分析方法的学与用[J].北京:北京统计,2002(7):34-36.

[6] 牛建华.层次分析法的房地产投资项目财务评价研究[D].河北工业大学,2006.

上一篇:ZigBee技术在气体浓度监控系统中的应用 下一篇:基于多层次的虚拟网络创建技术