数据挖掘技术分析及其在零售行业的应用

时间:2022-10-27 07:12:22

数据挖掘技术分析及其在零售行业的应用

[摘要] 数据挖掘技术逐渐成为研究热点,应用也越来越广泛。本文结合零售业中各种应用需求,较详细地分析了针对不同挖掘任务的数据挖掘技术,并对实施中出现的问题进行了阐述,表明了改进挖掘算法和提高计算效率的必要性。

[关键词] 数据挖掘 零售业 算法

一、引言

当美国学者奈斯伯特惊呼“人类正被大量数据所淹没,而知识则极度匮乏”时,出现于20世纪80年代末的数据挖掘技术让人们看到了发现知识的希望。

零售行业使最早利用数据挖掘技术的领域之一,随着时代的发展,传统报表系统已经不能满足日益增长的业务需求了,企业期待着更好地利用数据分析和数据挖掘这种新的技术来获得知识或洞察力,促使企业做出更有利的决策,带来更大的商业价值。这也成为企业生存发展的关键。

二、数据挖掘概念

1.什么是数据挖掘。数据挖掘(DM)是指从大量数据中抽取隐含的、不为人知的、有用的信息。有时也把数据挖掘等同于数据库中的知识发现(KDD)。

从商业角度出发,数据挖掘可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。

2.数据挖掘及知识发现处理数据的一般过程。数据清理数据集成数据选择数据变换汇总、聚集数据挖掘模式评估知识表示

三、零售业数据挖掘的主要技术分析

数据挖掘采用的方法综合了数据库、人工智能、统计学、模式识别、机器学习、数据分析等领域的研究成果。

1.概念/类描述:特征化和区分。对含有大量数据的数据集合进行概述性的总结并获得简明、准确的描述。

定性概念描述即数据特征化,是目标类数据的一般特性或特征的汇总。

对比概念描述即数据区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。目标类和对比类由用户指定,而对应的数据通过数据库查询检索。例如:用户可能希望将上一年销售增加10%的A产品与同一时期销售至少下降20%的B产品进行比较。再如:比较定期购买某种产品的顾客和偶尔购买这种产品的顾客。结果描述提供顾客比较的一般轮廓,如比较两类顾客的年龄,受教育程度,职业等等,还可以就某项深入比较,发现两类间更多的区分特性。

两种描述使用的一些有:基于统计度量、图的简单数据汇总、数据立方体、面向属性的归纳等。

2.挖掘频繁模式、关联。频繁模式是在数据中频繁出现的模式。包括项集、子序列和子结构。

项集是指频繁地在事务数据集中一起出现的项的集合,如牛奶和面包。如顾客先购买PC再购买数码相机然后再购买内存卡这样的模式是一个(频繁)序列模式。

子结构涉及不同的结构形式,如图、树或格,与项集或子序列结合在一起。如果一个子结构频繁地出现,则称它为(频繁)结构模式。

挖掘频繁模式导致发现数据中有趣的关联。著名的“尿布与啤酒”的故事就是关联规则具体应用。著名的关联规则发现方法如:R.Agrawal提出的Apriori算法等。

3.分类知识发现。所谓分类,是把给定的数据划分到一定的类别中。分类的关键是对数据按照什么标准或什么规则进行分类。

对于分类规则的挖掘通常有以下几种方法:决策树、朴素贝叶斯、k最近邻分类、人工神经网络、粗糙集方法和遗传算法。不同的算法适用于不同特点的数据集合。最为典型的分类方法是基于决策树的分类方法。

4.预测型知识发现。预测型知识是根据事件序列型数据,由历史的和当前的数据去推测未来的数据,也可以认为是以时间为关键属性的关联知识。比如,在零售业中根据先前的销售数据,预测未来销售中每种商品的收益,这是一个(数值)预测的例子。

目前,回归分析是一种最常使用的数值预测的统计学方法,此外还有神经网络、机器学习等多种方法。

5.聚类分析。聚类分析处理的数据是无事先确定的类别归属,是把整个数据库分成不同的群组。它的目的是要群与群之间差别很明显,而同一个群之间的数据尽量相似。

在零售业中利用聚类可以帮助市场分析人员从客户的基本库中发现不同的客户群,并且用购买模式来刻画不同客户群的特征。此外,聚类分析可以作为其他算法(如特征和分类等)的预处理步骤。聚类方法主要有两大类,包括统计方法和神经网络方法。

6.离群点分析。数据集中那些不符合大多数数据对象所构成的规律(模型)的数据对象被称为异类或离群点。

大部分数据挖掘方法很容易将离群点视为噪声或异常而丢弃。然而在某些特定应用场合(如商业欺诈行为的自动检测),小概率发生的事件(数据)比经常发生的事件(数据)更有挖掘价值。

常使用异常探测方法来发现离群点,实现异常探测可以用基于统计、基于距离、)基于偏离的方法。

四、结束语

通过研究和实际应用了解到,数据挖掘并不是万能的,在通过数据挖掘得到一些有意思的结果之后,还要进行相应的市场分析,用户行为分析和用户访谈,了解数据背后消费者的心理。

虽然数据挖掘在零售业中的应用有许多成功的案例(多数都在国外),然而在具体实施中还有一些的问题:挖掘算法的改进和计算效率提高,模型的合理性和易懂性,与其他系统的集成问题;网络与分布式环境下的KDD问题;个人隐私问题;数据规模超大或太小;另外还可能有观念意识问题,基础条件不成熟问题,这些都有待于进一步研究。

参考文献:

[01]Shortland R,Scarfe R.Digging for Gold.IEE Review.1995(5).41:213~217

[2]范明孟小峰(译):anjiawei,etal.数据挖掘:概念与技术.北京:机械工业出版社,2007

上一篇:解析第四代移动通信 下一篇:基于Honeynet环境下的蠕虫防御策略研究