Clementine在关联规则中的应用

时间:2022-07-01 04:15:15

【前言】Clementine在关联规则中的应用由文秘帮小编整理而成,但愿对你的学习工作带来帮助。关联规则是帮助发现大量数据库中项集之间的关联关系。和传统的产生式不同,关联规则可以有一个或多个输出属性,同时,一个规则的输出属性可以是另一规则的输入属性。关联规则是用于购物篮分析的常用技术,是因为可以找出潜在的令人感兴趣的产品组合。 关联规则的挖掘...

Clementine在关联规则中的应用

【摘要】数据挖掘在当今社会中扮演者越来越重要的角色,其中关联规则是数据挖掘的主要方法之一。基于关联规则的数据挖掘主要用于发现数据集中项目之间的联系。本文首先介绍了数据挖掘以及关联规则的有关概念以及算法,然后以超市购物为例,利用apriori算法,通过运用数据挖掘软件clementine找出顾客所购买商品之间的内在关联

【关键词】数据挖掘 关联规则 apriori算法 clementine

一、引言

关联规则是数据挖据的一种重要方法,目的在于揭示给定数据集中数据项之间内在关联以及存在的各种有用的信息,根据所挖掘的潜在的依懒关系,可以从一个数据项的信息来推断其他相关联的数据项的信息。如今关联规则已经被推广到许多领域,本文通过对某超市顾客购买商品情况进行抽样数据处理,得出相关结果并对其进行分析。

二、关联规则的有关概念

关联规则是帮助发现大量数据库中项集之间的关联关系。和传统的产生式不同,关联规则可以有一个或多个输出属性,同时,一个规则的输出属性可以是另一规则的输入属性。关联规则是用于购物篮分析的常用技术,是因为可以找出潜在的令人感兴趣的产品组合。

关联规则的挖掘通过规则的支持度和置信度进行兴趣度度量,这两种度量反映了所发现规则的有用性和确定性。

支持度:设D为事务集,X,Y为项集,且有规则XY。如果D中,包含X∪Y事务作占比例为s%,称XY有支持度s,即概率P()。

置信度:设D为事务集,X,Y为项集,且有规则XY。如果D中,c%的事务包含X的同时也包含Y,则称XY有置信度c,即条件概率P(Y│X)。

一般地,由用户给定最小支持度和最小置信度,发现关联规则的任务就是从数据库中发现那些支持度和置信度都大于给定阈值的强规则,也就是说,挖掘关联规则的关键是在大型数据库中发现强规则。支持度是一个有效的评价指标,如果支持度的值太小,就表明相应的规则在整个事务集合中只是偶然出现,在商业应用中,该规则很可能没有价值。而置信度的大小决定了规则的可预测度的大小,如果所选规则的置信度值太小,就表明从X就很难可靠地推断出Y。同样,置信度太低的规则也很可能没有价值。

三、Apriori算法简介

Apriori算法是关联规则挖掘的基本算法。该算法利用上次循环产生的大项集构造新的候选项集,然后扫描数据库,计算候选项集的支持数,扫描结束时得到大项集。具体地说,在第一次循环时,通过扫描数据库得到阶大项集,在之后的第k(k>1)次循环中,对第k-1次循环产生的k-1项大项集Lk-1实施Apriori―gen运算生成k候选项集CK。再次扫描数据库,得到CK的支持数,从而得到CK中支持数不小于最小支持数的k阶大项集Lk。重复以上步骤,直到某一阶的大项集为空时算法停止。

四、基于Clementine做关联规则的实际应用

(一)数据处理

本文选取了某超市的1000条销售数据,属性包括卡号、消费、性别、付款方式、收入以及购买的各种商品等。由于本文主要研究商品的关联规则,故可以用clementine中的Filter结点将卡号、消费等不需要的属性过滤掉,只留下水果、鲜肉、乳制品等各种食品。

(二)建立数据流步骤

在sourses双击var.file,这样结点var.file就进入数据流区域,双击打开就可以导入数据;在field ops选择filter双击进入数据流区域,打开后将前七个属性去掉;选择结点table,可以查看处理属性后的数据;在field ops选择type结点,进入数据流区域后双击打开将direction全部选为both,即每个属性都是双向的;在modeling中选择Apriori结点,双击打开后选择置信度为80%,支持度为15%。在graphs中双击结点web,进入数据了区域后打开,将所有属性都选入,并选中show true flags only,点击选项option,将weak links定位40%以下,strong links定为80%以上。

(三)运行结果及分析

运行结果。具有强关联度的有15组,中等的有37组,弱关联度的有3组,关联度最强的是cannedveg和frozenmeal,达到173,支持度是16.7%,置信度是87.425%,frozenmeal和beer以及cannedveg和beer的关联度也很强,分别达到170和167;而关联度最弱的是dairy和cannedmeat,freshmeat和dairy,dairy和softdrink,分别只有31,33和35。

结果分析及建议。从上面结果可以看出在cannedveg、frozenmeal和beer这三种商品中,顾客买了其中一个再买另外两种或其中之一的可能性比较大,超市管理者可以通过以上的结果可以调整商品摆放的位置,让这三种商品放在一起,方便顾客选购。有时候超市进行促销活动,则可能降低其中一种商品的价格,顾客买了促销的商品,很有可能就连带一起买其他两种商品,这样虽然降低了一种商品的价格,但是增加了其他商品的销售,也是超市盈利的一种很好的方法。

五、结束语

本文介绍了数据挖掘的概念,重点阐述了关联规则的有关内容,并用一个具体实例演示了怎样运用clementine软件做关联关系,虽然例子较为简单,但也能充分说明数据挖掘在实际生产销售中的重要作用,除了关联关系外,数据挖据还可以做有指导分类和无指导聚类等问题。

参考文献:

[1]Richarad J Roiger,Michael W Geatz著.翁敬农译.数据挖掘教程[M].清华大学出版社,2000.

[2]王斌会.数据挖掘技术及其应用现状[J].统计与决策,2006,(5).

[3]邓尚民. Clementine在电子商务环境中的数据挖掘应用[J].

情报分析与研究,2007,(10).

上一篇:探析会计信息的真实性问题 下一篇:民办高等院校生涯发展理念对主题班会课程化的...