计算机应用新领域—数据挖掘前景及应用探究

时间:2022-06-14 04:07:56

计算机应用新领域—数据挖掘前景及应用探究

摘要:本文首先介绍了数据挖掘的发展背景和数据挖掘的概念及应用价值;然后对数据挖掘中的价值实现难点进行分析;在此基础上结合化妆品企业数据挖掘的具体案例进行分析,验证了数据挖掘的商业价值;最后在此基础上分析对数据挖掘的发展进行展望,指出未来数据挖掘发展的三大趋势。

关键词:数据挖掘;商业智能;关联规则;Apriori算法

中图分类号:TP391 文献标识码:A 文章编号:1007-9599 (2012) 17-0000-02

1 数据挖掘概念

数据挖掘(Data Mining)是指基于一定业务目标下从海量数据中挖取潜在的、合理的并能被人理解的模式的高级处理过程。与传统的数据分析最大本质区别是数据分析所得到的信息具有先前未知、有效和实用三个特征,即数据挖掘是发现那些不能靠直觉发现的信息或知识,甚至违背直觉的信息或知识,挖掘出来的信息越出乎意料越有价值。

2 数据挖掘的价值实现难点分析

数据挖掘是数据库中的知识发现,从知识发现到知识应用、再到价值评估是一条数据挖掘价值变现的过程,虽然数据挖掘重要性毋庸置疑;但事实上其转变商业价值之路仍有较多困难。

2.1 知识发现。知识发现是这条路的始端,直接决定了最终价值的高度。挖掘的方法是通用的,但难度不在挖掘技术,而在于实施人员对数据业务的理解,在于数据的质量。实施人员必须清楚的知道数据回收的场景和原理,稍有沟通缺失,都会影响知识的质量度。

2.2 知识应用。发现了知识,只是迈出第一步,需要将相关的知识发现交给业务部门进行运营使用。不管是以甲方公司还是乙方公司的形式存在,难点在于语言的翻译转发。数据挖掘的语言形式是概率形式,类如“连续三天内在站内搜索超过10次,浏览搜索结果相关页面20次以上的用户最终购买概率为42%”,因此需要实施人员深谙运营知识,将挖掘结果语言转化成运营结果语言,最终成为友好的商业运营智慧。应用的过程还需要及时跟踪、分析、调整,毕竟市场是多变的,分析与执行就像左脑和右脑,两者距离的远近,影响结果的优劣。

2.3 价值评估。数据挖掘的效果评估决定最终的话语和地位。从结果来看,如果结果有效,如何界定是知识有效还是执行有效;如果结果无效,如何界定是知识无效还是执行无效;如果知识有效,如何界定是通过挖掘发现还是已知发现。如果不能很清晰的界定,数据挖掘的存在价值都会大打折扣。曾经有个笑话,“通过我们海量数据发现,中国的15-20岁的男性网民最喜欢使用QQ即时通讯工具”,这样的知识发现虽然是个笑话,但在现实行业里是个不争的事实。数据挖掘的价值应当是显现的、直观的、令人信服的,不在于挖掘的技术多么高深,而在于整个体系的搭建和成果的展现,做的再好,看不到效果,等于无效。

以上三点就像三座大山,压在了数据挖掘的变现之路,下面笔者将论述数据挖掘的商业应用价值。

3 数据挖掘应用—关联规则在化妆品营销当中运用

3.1 关联规则概念。关联规则指通过分析发现数据库中不同变量或个体(例如商品间的关系及年龄与购买行为上关系)之间的关系程度,用以找出顾客购买行为模式。

3.2 Apriori算法步骤。(1)首先设定最小支持度及最小依赖度。(2)Apriori算法使用了候选物项集合的概念;首先产生候选项集合,若候选物集合的支持度大于或等于最小支持度,则候选物项集合为高频物项集合。(3)在数据库中读取所有交易,得出候选单物项集合的支持度,再找出高频单物项集合,并利用这些高频单物项集合的结合,产生候选2物项集合。(4)再次扫描数据库,得出候选2物项集合的支持度,接着找出高频2物项集合,并利用这些高频2物项集合的结合,产生候选3物项集合。(5)重复扫描数据库,与最小支持度比较,产生高频物项集合,再结合下一级候选物项集合,直到不再结合出新的候选物项集合为止。

当然在采用Apriori算法时,因计算物项太多而造成运行缓慢,主要原因是高频物项集合产生过多的物项集合,尤其是候选2物项集合的情况最为严重。

3.3 关联规则在零售行业营销处理的思路。采用Apriori算法扫描企业数据库,得出最终频繁产品集合。假定最终频繁产品集合为{1,2,3,4,5,6},此时总共可以找到类似啤酒尿布的组合共计6+45+140+225=416种关联产品推荐组合,营销人员可以制定相应规划,即当某顾客购买任意两个或三个或四个或五个产品推出相应产品进行关联销售,提高销售机会。根据企业数据库可以得到相应的置信度;进而提出商业建议进行关联产品销售,提高产品销售概率。

3.4 案例分析:关联规则在化妆品行业营销实践。化妆品企业中会有很多交易,那么如何发现其中规律进行关联营销提高销售机会呢?为了计算机识别方便,我们化妆品企业的需要分析的1000种化妆品进行排序,分别用1-1000代替,建立顾客的交易数据库,找出客户交易数据矩阵,通过Matlab关联规则运算箱运行结果如下。

我们可以看到客户买110产品顾客再买94号产品概率为94.4%,可以把两者进行组合销售;同样买122的产品再买94号产品概率为47.6%,也就是说顾客买122号产品时可以推荐94号产品提高销售机率;同样我们也发现94产品出现概率特别高,可以认定这是顾客非常喜欢的产品,得到商业建议。

(1)玫瑰全日保湿乳和玫瑰保湿柔肤水两个产品组合销售。(2)银杏果匀肤隔离霜和玫瑰保湿柔肤水两个产品系列交叉购买情况。(3)玫瑰保湿柔肤水该产品为明星产品。

该企业采取上述商业建议后,到目前为止连续几个月实现销售额增长10%以上,给企业带来较大的收益,再次验证数据挖掘商业价值。

(注:110号代表玫瑰全日保湿乳;94号代表玫瑰保湿柔肤水;122代表银杏果匀肤隔离霜)

4 数据挖掘的趋势

4.1 趋势一:大数据,大分析。近两年关于数据挖掘出现了“大数据”这个概念,一些电子商务网站的数据量增长尤其明显。大数据会影响数据挖掘的工具以及方法。针对这种情况,SAS提出“大分析”的概念。光有大数据,没有一套匹配的技术来配合也不行。SAS基于大分析的趋势提出高性能计算的解决策略。

4.2 趋势二:非结构化数据的海洋。非结构化数据的数据量增加越来越快,笔者认为它与结构化数据就像海洋和陆地的比例。在非结构化数据发展中,要点是如何从非结构化向结构化转变,做结构化处理。这里面涉及了文本挖掘、自然语言处理等更细化的技术实现手段。此外,非结构化数据与结构化数据结合也将是一个发展热点,单纯依靠其一都不可靠。

4.3 趋势三:社会化分析。社会化分析主要涉及社会媒体分析和社会网络分析。在微博上,熟人和陌生人都可以彼此互相关注,信息被评论、转发又会不断扩展、发散,逐渐放大。企业会关注人们在微博上的动向,政府也会关心言论的走向。对于普通用户,也会涉及到自己交往圈、关系圈。在圈子里面哪些人是影响者,哪些是跟随者,哪些是边缘人,找到这些关键点,对营销会有很大帮助,从中可以未来数据挖掘场景图。

5 结论

数据挖掘技术是一新兴的研究领域,商业利益的驱动将会促使其不停地发展,每年都有新的数据挖掘方法和模型问世,人们对它的研究正日益广泛和深入,其商业价值也日益突显。尽管对数据挖掘的研究仍面临着诸多问题和挑战,还存在很多问题值我们去探索研究,但我们有理由相信在不久将来数据挖掘发挥的作用和价值会越来越大。

参考文献:

[1]朱世武.数据挖掘运用的理论与技术[J].统计研究,2003.

[2]郑继刚.数据挖掘研究的现状与发展趋势[J].红河学院学报,2010.

上一篇:英语自主学习中心网络安全现状与对策 下一篇:计算机应用软件开发中编程语言的选择研究