基于HTML5的C4.5算法的可视化数据挖掘的实现

时间:2022-07-04 12:36:46

基于HTML5的C4.5算法的可视化数据挖掘的实现

引言:为了使数据挖掘技术能满足不同层次的用户需要,可视化数据挖掘技术被提出,通过可视化的手段将数据挖掘过程的各个阶段展示给用户,使用户能更好的理解数据挖掘过程,对数据挖掘结果进行有效评估。随着网络技术的发展、IPV6和html5等扩展和重新定义现有web应用的新标准的逐渐成为主流,以及B/S系统天生的优越性,基于web的可视化数据挖掘的研究成为了热点。

本研究是在现有算法的基础上着重研究算法的可视化效果,并借助HTML5载体来实现可视化,探索HTML5的典型应用的交叉性研究,主要研究数据挖掘过程的可视化――数据挖掘过程在基于HTML5的Web界面上的显示;研究了C4.5分类决策树算法实现数据挖掘模型的可视化;设计这种算法的过程和结果的可视化方法,实现了挖掘过程和挖掘结果的可视化。

一、C4.5分类决策树算法简介

C4.5算法是CLS和ID3发展而来的决策树算法,生成决策树形式的分类器,同时也可以生成规则集。该算法的属性选择是基于一个假设,即:决策树的复杂度和所给属性值表达的信息量是密切相关的。C4. 5把分类范围扩展到了数字属性,这个度量标准倾向于能把数据分区成有低类熵的子集的属性,即大部分样本都属于一个单独的类。C4.5算法利用熵原理,采用分而治之的方法来构造决策树, 判断树的生长方向,通常基于信息增益或者增益率,即选择信息增益率最大的属性作为分类属性。信息增益率等于信息增益对分割信息量的比值。

对样本集T,假设A有s个不同取值的离散属性,划分为s1,s2,sn共n个子集,用A分割样本集所得的信息增益的ID3算法相同,分割信息量由

C4.5算法作为ID3的改进算法,它简单直接、易于理解和应用,能有效的生成决策树,较好的解决了ID3算法多值属性偏向问题。

二、可视化数据挖掘技术

可视化数据挖掘技术以数据挖掘技术和可视化技术为基础,通过运用计算机图形学和图像处理技术,将数据挖掘过程中涉及的源数据、中间结果、最终挖掘结果模型以及整个数据挖掘过程以直观化的方式呈现给用户。可视化数据挖掘技术具有以下优点:在进行数据挖掘之前,通过人们容易理解的图形、图表等直观的方式来表现复杂的数据信息,能够加深用户对复杂数据信息的理解,为较好的选取数据和确定数据挖掘任务打下基础;在数据挖掘执行过程中,通过界面交互的方式,使用户能够观察并管理数据挖掘过程,从而指导数据挖掘进度,保证数据挖掘的质量;最后,以特定的可视化图形显示数据挖掘生成的结果模型,使用户能够清晰、明了地理解所获取的知识,做出有效的评估和反馈。

三、HTML5

HTML5标准将赋予浏览器更多的功能,使得浏览器能够不通过插件就能够实现位置跟踪、本地存储、离线应用、视频音频的播放以及通信功能。它将把互联网带向一个新的时代,使得基于互联网的应用更加方便、高效和安全。它与HTML4最大的区别主要有两个方面,第一个就是强化了Web页面的表现能力,以往要使用Web页面来播放视频、音频和动画,浏览器需要安装各13种各样的浏览器插件,但是HTML5标准中,浏览器原生的对这些多媒体表现进行了支持。第二个就是丰富的API可供调用,包括本地缓存、离线应用、地理信息和通信等等。

四、C4.5实验

在本算法中使用经典的根据天气决定是否打垒球的例子。搜集14天的数据帮助建立决策树:

根据前面的介绍可知,该算法最关键的是根据属性的信息增益构造决策树,主要代码如下:

(1)决策属性的熵,决策属性的熵在本例中为“活动”属性。主要用entropyResult(resultAttr)方法和ratio函数。(2)条件属性的熵,用entropyAttr(attribute,resultAttr)计算条件属性数目,然后用if方法根据条件属性对结果属性分组,最后用函数计算条件属性的熵。(3)信息增益的计算,用gain(attribute,result)来计算。(4)排序,对所有条件属性的信息增益进行排序选取决策树每一步生成的树节点使用javascript中Array对象的slice方法。

经过计算,条件属性“户外”有最大的增益,它用于决策树的根节点,因为户外有3种类型,根节点就有3个分支(晴天、阴天、雨天)。由于阴天的熵为0,直接生成叶子节点,其余2个属性生成中间节点。在晴天和阴天分支中,分别根据根节点生成子树的计算步骤递归生成子树,在canvas中生成决策树的过程,至此完整的决策树生成成功。设定一组条件[晴天,炎热,正常,弱],通过决策树得到的决策过程为图1所示。

总结

html5在绘图方面具有强大的表现能力与良好的效率,通过与数据挖掘技术的结合以及与其他多种领域知识的结合,从而让各类用户能够更好地共享可视化数据挖掘技术的成果,必将在互联网与移动计算的发展过程中扮演越来越重要的角色。

参考文献

[1]Hillol KarguPta,Jiawei Han.Next Generation of Data Mining. ChaPman & Hall/CRC.2008.

[2]施惠娟,可视化数据挖掘技术的研究与实现,[D].上海,华东师范大学,2010,10-11.

[3]毛国君,段立娟等编著.数据挖掘原理与算法.北京:清华大学出版社.2007.

(作者单位:湖北工业职业技术学院)

上一篇:浅谈如何构建农村剩余劳动力转移就业的长效机... 下一篇:基于O2P电子商务模式的研究