数据挖掘范文

时间:2023-11-25 09:40:31

数据挖掘

数据挖掘篇1

目前面向Web的数据挖掘面临的问题,主要有两个方面:

1.1数据库环境的异构型

Web上的每个站点就是一个数据源,数据源之间是异构的,外加上各个站点的信息和组织的不同,Web网站就构成了一个巨大的异构数据库环境。要对这些数据进行挖掘,首先,要解决各个站点之间的异构数据集成,提供用户统一界面,从复杂的数据源中取得所需的有用的信息知识。其次,有关Web上的数据查询。

1.2数据结构的半结构化

Web上的数据比较复杂,各个站点的数据都独立设计,具有动态可变性。虽然Web上的数据形成半结构化数据。这些问题是进行Web数据挖掘所面临的最大困难。

2XML技术在Web数据挖掘中的优势

Web数据的异构使Web数据挖掘变得十分困难,通过XML可以解决这个问题。因为XML文档具有很好的自我描述性,他的元素、子元素、属性结构树可以表达极为丰富的语义信息,能够很好的描述半结构化的数据,因此在网络数据集成、发送、处理和显示的方面。开发人员能够用XML的格式标记和交换数据。XML在三层架构上为数据的处理提供了有用的途径。利用XML,Web设计人员能够构建文档类型定义的多层次互相关联的系统、元数据、数据树、样式表和超链接结构。基于XML的Web数据挖掘技术,能够使不同来源的结构化的数据很容易地结合在一起,解决Web数据挖掘的难题。

2.1XML技术在Web数据挖掘中具体作用利用XML技术我们在Web数据挖掘中可以完成以下几点:

2.1.1集成异构数据源

XML是一种半结构化的数据模型,可以完成和关系数据库中的属性一一对应,从而实施精确地查询与模型抽取。XML可以搜索多个不同数据库的问题,以实现集成。

2.1.2和异构数据进行交换

在Web数据挖掘程中,用户需要和异构数据源进行数据交换,XML通过自定义性及可扩展性来标识各种数据,从而描述从各站点搜集到的Web页中的数据。XML的出现解决了数据查询的统一接口。

2.1.3过滤信息并显示

XML描述数据本身,可以使得定义的数据以不同的方式显示,对获取的信息进行裁减和编辑以适应不同用户的需求。以不同的浏览形式提供给不同的用户。

3基于XML的Web数据挖掘模型

我们通过对XML及Web数据挖掘的分析,设计了一个基于XML的Web数据挖掘模型通过提供一个Web数据挖掘的集成环境,提高数据挖掘系统的整体性能。工作流程如下:系统根据用户要求搜集Web资源,经数据转换器处理成相应的XML数据存储,提供给挖掘器使用;挖掘器则根据要求从选取相应的算法挖掘,输出挖掘结果;用户根据自己的满意度,获得需要的挖掘结果,调整挖掘要求进入新一轮数据挖掘。通过系统的维护我们可以加入新的挖掘算法,实现升级。

3.1各模块具体功能

3.1.1数据收集

从Web站点上采集数据并存储,获得挖掘内容。针对异构数据源,可以多种方式提出相关需求,挖掘的重点是Web内容和Web使用的数据。把用户访问网站留下原始日志数据进行清洗、过滤和转换处理,转变成统一处理的数据结构,构建日志数据库。

3.1.2转换器

对检索得到的数据用XML技术进行预处理,建立半结构化数据模型,抽取其特征的元数据,用结构化的形式保存,为挖掘模块提供所需的数据。

3.1.3挖掘器

不同的挖掘算法有不同适用情况,挖掘综合器根据具体的需求和挖掘方法的不同选择策略到挖掘算法库中去选择挖掘算法或种组合算法执行挖掘任务。随着应用的深入,知识库中的算法和规则不断的丰富。挖掘算法库是挖掘分析方法的综合库,以插拔的形式组织存放各种挖掘算法。314结果生成与评估以直观的方式提交挖掘结果,便于用户的评估。通过模式分析和兴趣度度量,若结果使得用户满意,数据挖掘结束,输出用户感兴趣的内容;否则可以在此重新提出挖掘要求,重新挖掘。

3.2系统各模块实现方法

3.2.1数据收集

数据的收集也涉及数据挖掘的技术,其过程是:通过人工输入办法,给出查询主题,找到相关的Web页,然后,通过相应的数据挖掘的算法对训练数据集提炼,利用提炼出的数据模式,进行更大范围的搜索,以获取更多的数据源。最终形成较新和有效XML文档。

3.2.2数据的转换处理

数据抽取转换是模型实现一个重要环节,其主要方法是把现有的Web页面转换成XML格式,并使用相关工具处理XML结构数据检要把HTML中含有的与主题无关的标记过滤掉,然后转化到XML的格式存储。目前Web页面到XML文档的转换,有两部分数据构成:一是XML数据,二是非XML数据。XML数据,可以直接将它们提交给下一个模块。对于非XML数据,本文的实现方法是用到Tidy以改正HTML文档中的常见错误并生成格式编排良好的等价文档,还可以使用Tidy生成XHTML(XML的子集)格式的文档。通过构造相应的Java类完成将数据从HTML到XML的转换。

3.2.3挖掘方法

(1)文本分类:文本分类是指按预先定义的主题类别,把集合中的每个文档确定一个所属类别。这样,用户能够方便地浏览文档,并限制搜索范围来使查找更为容易。利用文本分类技术对大量文档进行快速、有效地自动分类。有关的算法通常采用TFIDF和NaiveBayes等方法。

(2)文本聚类:文本聚类与分类的不同之处在于,聚类不需要预先定义好的主题类别,它是将把文档集合分成若干个簇,要求同簇内文档内容相似度最大,而不同簇间的相似度最小。Hearst等人研究表明聚类假设,即与用户查询相关的文档通常会聚类比较靠近,而远离与用户查询不相关文档。可以利用文本聚类技术把搜索引擎检索结果分成若干个簇,用户只要考虑那些相关的簇,就能够缩小所需要浏览的结果数量。目前,常用的文本聚类算法,分为两种:以G-HAC等算法为代表的层次凝聚法,以k-means等算法为代表的平面划分法。

(3)关联分析:关联分析是指从文档集合中发现不同词语之间关系Brin提出一种从大量文档中查找一对词语出现模式算法,在Web上寻找作者和书名的模式,从而发现数千本在Amazon网站上查找不到的新书。

(4)模式评价:Web数据挖掘中十分重要的过程就是模式评价。常用的方法有预留法和交叉实验法,将数据分成训练集和测试集两部分,学习和测试反复进行,最后用一个平均质量模型来确定模型质量的好坏。

(5)预留法:从数据集合随机抽取预定大小一个子集作为测试集,其他数据则作为训练集。

(6)交叉验证法:把整个数据集合按照所要进行的学习测试循环次数分成一定数目的子集,在每次循环中,选取其一个子集作为测试集,其它子集并集则作为训练集。

4结束语

XML技术不仅为Web上的数据交换提供了一个标准,而且能够更好的表示数据内容,以及数据的含义。随着XML的兴起和完善,Web页面会蕴涵更多的结构化和语义的信息,因此,基于XML技术的数据挖掘已成为目前Web挖掘的研究热点。当然Web数据挖掘这一研究领域还有待于进一步研究。

数据挖掘篇2

数据挖掘(DataMining)是一种新的商业信息处理技术,产生于20世纪80年代的美国,首先应用在金融、电信等领域,主要特点是对大量数据进行抽取、转换、分析和模型化处理,从中提取出有助于商业决策的关键性数据。银行信息化的迅速发展,产生了大量的业务数据。从海量数据中提取出有价值的信息,为银行的商业决策服务,是数据挖掘的重要应用领域。汇丰、花旗和瑞士银行是数据挖掘技术应用的先行者。如今,数据挖掘已在银行业有了广泛深入的应用。

二、数据挖掘在银行业应用的主要方面

现阶段,数据挖掘在银行业中的应用,主要可分为以下几个方面。

(一)风险管理

数据挖掘在银行业的重要应用之一是风险管理,如信用风险评估。可通过构建信用评级模型,评估贷款申请人或信用卡申请人的风险。一个进行信用风险评估的解决方案,能对银行数据库中所有的账户指定信用评级标准,用若干数据库查询就可以得出信用风险的列表。这种对于高/低风险的评级或分类,是基于每个客户的账户特征,如尚未偿还的贷款、信用调降报告历史记录、账户类型、收入水平及其他信息等。

对于银行账户的信用评估,可采用直观量化的评分技术。将顾客的海量信息数据以某种权重加以衡量,针对各种目标给出量化的评分。以信用评分为例,通过由数据挖掘模型确定的权重,来给每项申请的各指标打分,加总得到该申请人的信用评分情况。银行根据信用评分来决定是否接受申请,确定信用额度。过去,信用评分的工作由银行信贷员完成,只考虑几个经过测试的变量,如就业情况、收入、年龄、资产、负债等。现在应用数据挖掘的方法,可以增加更多的变量,提高模型的精度,满足信用评价的需求。

通过数据挖掘,还可以侦查异常的信用卡使用情况,确定极端客户的消费行为。根据历史统计数据,评定造成信贷风险客户的特征和背景,预防可能造成风险损失的客户。在对客户的资信调查和经营预测的基础上,运用系统的方法对信贷风险的类型和原因进行识别、估测,发现引起贷款风险的诱导因素,有效地控制和降低信贷风险的发生。通过建立信用欺诈模型,帮助银行发现具有潜在欺诈性的事件,开展欺诈侦查分析,预防和控制资金非法流失。

(二)客户管理

在银行客户管理生命周期的各个阶段,都会用到数据挖掘技术。

1.获取客户

发现和开拓新客户对任何一家银行来说都至关重要。通过探索性的数据挖掘方法,如自动探测聚类和购物篮分析,可以用来找出客户数据库中的特征,预测对于银行营销活动的响应率。那些被定为有利的特征可以与新的非客户群进行匹配,以增加营销活动的效果。

数据挖掘还可从银行数据库存储的客户信息中,可以根据事先设定的标准找到符合条件的客户群,也可以把客户进行聚类分析让其自然分群,通过对客户的服务收入、风险、成本等相关因素的分析、预测和优化,找到新的可赢利目标客户。

2.保留客户

通过数据挖掘,在发现流失客户的特征后,银行可以在具有相似特征的客户未流失之前,采取额外增值服务、特殊待遇和激励忠诚度等措施保留客户。比如,使用信用卡损耗模型,可以预测哪些客户将停止使用银行的信用卡,而转用竞争对手的卡,根据数据挖掘结果,银行可以采取措施来保持这些客户的信任。当得出可能流失的客户名单后,可对客户进行关怀访问,争取留住客户。

银行为留住老客户,防止客户流失,就必须了解客户的需求。数据挖掘,可以识别导致客户转移的关联因子,用模式找出当前客户中相似的可能转移者,通过孤立点分析法可以发现客户的异常行为,从而使银行避免不必要的客户流失。数据挖掘工具,还可以对大量的客户资料进行分析,建立数据模型,确定客户的交易习惯、交易额度和交易频率,分析客户对某个产品的忠诚程度、持久性等,从而为他们提供个性化定制服务,以提高客户忠诚度。

3.优化客户服务

银行业竞争日益激烈,客户服务的质量是关系到银行发展的重要因素。客户是一个可能根据年费、服务、优惠条件等因素而不断流动的团体,为客户提供优质和个性化的服务,是取得客户信任的重要手段。根据二八原则,银行业20%的客户创造了80%的价值,要对这20%的客户实施最优质的服务,前提是发现这20%的重点客户。重点客户的发现通常是由一系列的数据挖掘来实现的。如通过分析客户对产品的应用频率、持续性等指标来判别客户的忠诚度,通过交易数据的详细分析来鉴别哪些是银行希望保持的客户。找到重点客户后,银行就能为客户提供有针对性的服务。

三、数据挖掘在银行业的具体应用

数据挖掘技术在银行业中的应用,其中一个重要前提条件是,必须建立一个统一的中央客户数据库,以提高客户信息的分析能力。分析开始时,从数据库中收集与客户有关的所有信息、交易记录,进行建模,对数据进行分析,对客户将来的行为进行预测。具体应用分为五个阶段:

(一)加载客户账号信息。这一阶段,主要是进行数据清理,消除现有业务系统中有关客户账户数据不一致的现象,将其整合到中央市场客户信息库。银行各业务部门对客户有统一的视图,可以进行相关的客户分析,如客户人数,客户分类,基本需求等。

(二)加载客户交易信息阶段。这一阶段主要是把客户与银行分销渠道的所有历史交易数据,包括柜台,ATM,信用卡,汇款,转账等,加载到中央市场客户信息库。这一阶段完成后,银行可以分析客户使用分销渠道的情况和分销渠道的容量,了解客户,渠道,服务三者之间的关系。

(三)模型评测。这是为客户的每一个账号建立利润评测模型,需要收入和成本的确定金额,因此需要加载会计系统的财务数据到中央数据库。这一阶段完成后,银行可以从组织,用户和产品三个方面分析利润贡献度。如银行可以依客户的利润贡献度安排合适的分销渠道,模拟和预测新产品对银行的利润贡献度等。

(四)优化客户关系。银行应该掌握客户在生活、职业等方面的行为变化及外部环境的变化,抓住推销新产品和服务的时机。这需要将账号每天发生的交易明细数据,定时加载到中央数据仓库,核对客户行为的变化。如有变化,银行则利用客户的购买倾向模型,渠道喜好模型,利润贡献模型,信用和风险评测模型等,主动与客户取得联系。

(五)风险评估管理。银行风险管理的对象主要是与资产和负债有关的风险,因此与资产负债有关的业务系统的交易数据要加载到中央数据仓库;然后,银行应按照不同的期间,分析和计算利率敏感性资产和负债之间的缺口,知道银行在不同期间资本比率、资产负债结构、资金情况和净利息收入的变化。

四、结语

数据挖掘篇3

【关键词】数据挖掘 关联规则数据挖掘 数据挖掘工具 SAS Enterprise Miner

随着数据库技术和数字信息技术的发展,在各个领域积累了大量的数据,在这些海量的数据中如何挖掘重要、有用的信息,这是数据挖掘的目的。近年来,随着对数据挖掘技术的深入研究,数据挖掘技术在多项领域中得到了应用,这也促使科学界人士对该项技术进行更加深入的研究。关联规则数据挖掘是数据挖掘的一个重要内容,对它进行深入研究有着重要的意义。利用数据挖掘工具,既确保可能的最高级别的精度和灵活性,又节省了大量的开发费用、维护和升级的开销。

1 数据挖掘概念

数据挖掘是指从大量的数据中去探索、识别、选择有效的、新颖的、隐含有用的、可以理解的模式来获取数据的过程。数据挖掘包含了统计学、机器学习、模式识别、人工智能、信息检索、数据库、专家系统和信息可视化等多项领域,它包含关联规则数据挖掘、聚类数据挖掘、异常点数据挖掘。

2 关联规则数据挖掘

关联规则是数据挖掘的重要技术之一,他是指在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性、或因果结构。早期关联规则的应用研究是为了找出数据库中不同商品间存在的关联性,借此来发现顾客的购买行为模式,这样有助于指导货物储存的安排、商品货架的摆放以及按照购买模式将用户分类。近几年来,关联规则挖掘技术己经被应用到很多的领域中。随着关联规则研究的深入,不仅是关联规则的应用范围得到拓展,在数据的处理能力上也得到了扩充。主要应用于购物篮分析、交叉销售、产品目录设计、 loss-leader analysis、聚集、分类等。

2.1基本思想

关联规则挖掘技术可以发现不同对象之间的相关性。如有一组事务集合,其中每个事务是一个项目集;一个关联规则是形如X ->Y 的蕴涵式, X 和Y 表示项目集,且X ∩ Y = Φ, X 和Y 分别称为关联规则X-> Y 的前提和结论。规则X->Y 的支持度(Support) 是事务集中包含X 和Y 的事务数与所有事务数之比,记为support(X->Y) ;规则X->Y 的置信度(Confidence) 是指包含X和Y 的事务数与包含X 的事务数之比, 记为confidence ( X->Y) 。支持度用于衡量所发现规则的统计重要性,而置信度用于衡量关联规则的可信程度。一般来说,只有支持度和置信度均高的关联规则才可能是消费者感兴趣的、有用的规则。

3 SAS Enterprise Miner

SAS/EM是具有图形化、可视化操作界面的数据挖掘集成工具,这样可以引导数理统计经验不足的用户按SEMMA原则来进行数据挖掘,用户输入相关数据,运行SAS/EM之后,就可以数据的分析结果。同时还通过修改数据来调整分析处理过程。

3.1 SAS Enterprise Miner的优势

SAS Enterprise Miner被广大数据挖掘爱好者用户使用,主要是它具有以下优点:

1) 支持UNIX,MVS,OS/390,Linux等多个平台;

2) 能很好集成数据库,可以访问50多种数据源和数据库,数据仓库很好的集成;

3) 具有客户机/服务器结构;

4) SEMMA方法论引导,对于业务和技术人员,可以对界面进行拖拽式操作,能以流程图,可视化,图形化的形式将数据挖掘功能分模块;

5) 可以利用丰富的可视化数据探索节点来对数据进行分析;

6) 具备变换工具和较多的数据预处理能力,如变量自动选择等功能;

7) 具有多种灵活算法和数据挖掘模型: 如神经元网络,决策树,基于记忆的推理,回归,K均值聚类,两阶段模型,自组织映射及模型组装技术;

8) 具有较多的评估规则和模型评估模块;

9) 具有完善的打分(Scoring)功能和数据挖掘模型代码;

10) 可以与其它业务专家和数据挖掘专家共享数据挖掘流程和结果,这是因为报告工具可以将数据挖掘流程和结果生成HTML格式的报告

3.2 SAS模块数据挖掘流程

如图1所示。

4 SAS Enterprise Miner关联规则挖掘

数据收集了一家商店客户的基本购买信息,通过SAS Enterprise Miner关联规则挖掘,从而了解客户购买某商品同时还购买其他哪些商品。在收集的ASSOCCS数据集中有1001位客户购买商品的信息。主要有以下商品信息:1001位顾客购买了7个项目的商品,产生了7007行数据。每一行数据表示一条交易信息。

4.1 根据所收集的数据,导入数据,处理数据

4.2设立数据节点进行数据挖掘

将预处理好的顾客信息、7个项目的商品信息数据表导人SAS/EM的Association节中,设立好数据节点、最小支持度、最小置信度和最大项集数后就进行关联规则节点设置和数据挖掘。挖掘结果如图2。

4.3执行序列模式发现。

此处以coke为例,得到转化后的数据集

data tmp;

set sampsio.assocs;

if product = 'coke' then visit = 1 ;

else visit = 2;

run;

5 总结

SAS Enterprise Miner是一个集成的数据挖掘系统,允许使用和比较不同的技术,同时还集成了复杂的数据库管理软件,他与SAS协会定义的数据挖掘方法――SEMMA方法就可以达到即抽样(Sample)、探索(Explore)、修改(Modify)建模(Model)、评价(Assess)紧密结合,这些对于初学者来说是很好理解和实用,同时它友好的用户界面,更加直观、灵活、实用也更方便。对于有经验的用户来说,他可以大量节省算法和编程时间,可以很好的去计划、建立和评价数据上。

参考文献

[1]刘翔.数据仓库与数据挖掘技术[M].上海交通大学出版社,2005.

[2]郑纬民,黄刚.数据挖掘工具及其选择.

[3]郝刚,田亮君,陈文基.于关联规则的数据挖掘算法研究[M].北京:人民邮电出版社,2006.

作者介绍

唐智英(1978―),女,云南省普洱市人。讲师。研究生学历。主要研究方向为计算机应用、软件开发、数据挖掘。

王祖凤(1978―),男,云南省普洱市人,讲师。研究生学历。主要研究方向为硬件技术、数据挖掘。

吴光凤(1983―)女,云南省普洱市人。讲师。大学本科学历。主要研究方向为动画设计。

作者单位

数据挖掘篇4

关键词:Web数据挖掘;挖掘过程;挖掘技术

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2009)15-3852-02

The Summary of Web Mining Technology

PAN Zheng-gao1,2

(1.School of Information and Computer,Hefei University of Technology,Hefei 230009,China;2.the Lab of Artificial Intelligence and Data Mining,Suzhou University,Suzhou 234000,China)

Abstract:WWW contains abundant information,as a enormous,extensive and global service center of information.Web Mining can be assumed speedinessly and effectively the information what we needed.This text introduce the types,procession and technologys of Web Mining,except the foreground of it's application.Those work based on the basic concept and characteristic of Web Mining.

Key words:Web Mining; Mining Course; Mining Technology

1 引言

随着Internet的发展,Web信息迅速膨胀,如何从海量的Web信息中快速和准确地获取有用信息已经成为近几年数据挖掘领域研究的热点。Web上的数据与其他的数据相比较存在着明显的特点,这些特点使得Web挖掘在方法和技术方面与传统的数据挖掘有着显著的不同。

2 Web数据挖掘的概念

Web数据挖掘(Web Mining),简称Web挖掘,是由Oren Etzioni在1996年首先提出的[1]。它是数据挖掘技术和Internet应用研究相结合的研究领域。一般,对Web数据挖掘定义如下:Web数据挖掘是指Web从文档结构和使用的集合C中发现隐含的模式P。如果将C看作输入,P看作输出,则Web挖掘的过程就是从输入到输出的一个映射[2]。

Web挖掘是指从大量的Web数据中发现新颖的、潜在可用的及最终可以理解的知识(包括概念、模式、规则、规律、约束及可视化等形式)的非平凡过程。Web挖掘是数据挖掘技术和Internet应用研究相结合的产物,其涉及的技术覆盖了多个研究领域,包括数据库技术、信息获取技术、统计学、机器学习、神经网络等。

3 Web数据的特点[3]

1) 异构数据库环境。Web上的每一个站点就是一个数据源,每个数据源都是异构的,因而每一站点的信息和组织都不一样,这就构成了一个巨大的异构数据库。

2) 分布式数据源。Web页面散布在世界各地的Web服务器上,形成了分布式数据源。

3) 半结构化。半结构化是Web上数据的最大特点。Web上的数据非常复杂,没有特定的模型描述,是一种非完全结构化的数据,称之为半结构化数据。

4) 动态性强。Web是一个动态性极强的信息源,信息不断地快速更新,各站点的链接信息和访问记录的更新非常频繁。

5) 多样复杂性。Web包含了各种信息和资源,有文本数据、超文本数据、图表、图像、音频数据和视频数据等多种多媒体数据。

4 Web数据挖掘的分类

Web挖掘技术根据挖掘的方向一般分为三类:Web内容挖掘,Web结构挖掘和Web使用记录的挖掘。

4.1 Web内容挖掘(WCM,Web Content Mining)

Web内容挖掘是指从大量的Web数据中发现信息、抽取知识的过程。这些Web数据的形式有Web页面、Web页面上各种链接所指向的内容以及网络数据库里的数据等。从内容方面,Web内容挖掘可分为Web文本挖掘和Web多媒体挖掘,它们的不同在于提取的特征不同。从方法上,Web内容挖掘可分为数据库方法和信息抽取方法。

4.2 Web结构挖掘(WSM,Web Structure Mining)

Web结构挖掘是从Web的组织结构、Web文档结构与其链接关系中挖掘潜在的知识和模式。通过对Web结构的分析,可以发现页面结构和链接关系中所蕴涵的有用模式;也可以对页面及其链接进行分类和聚类,发现权威页面。有关这方面的算法研究成果有:Page-rank、HITS(Hyperlink-Induced Topic Search)及改进的HITS(将内容信息加入到链接结构中去)、Hub/authority(Kleinberg,1998)[4]。

4.3 Web使用挖掘(WUM,Web Usage Mining)

Web使用挖掘是应用数据挖掘技术从Web数据中发现用户访问模式的过程[5]。它可以帮助我们提高Internet信息服务的质量,改进Web服务器的系统性能和结构。

5 Web数据挖掘过程

Web数据挖掘过程是一个完整的KDD过程,但是与传统的数据和数据仓库相比,Web上的信息是非结构化或半结构化的、动态的、并且是容易造成混淆的,所以很难直接以Web网页上的数据进行数据挖掘,而必须经过必要的数据处理。典型Web挖掘的处理流程如图1所示,包括如下四个过程:

1) 查找资源:根据挖掘目的,从Web资源中提取相关数据,构成目标数据集,Web数据挖掘主要从这些数据通信中进行数据提取。其任务是从目标Web数据(包括Web文档、电子邮件、电子文档、新闻组、网站日志、网络数据库中的数据等)中得到数据。

2) 数据预处理:在进行Web挖掘之前对“杂质”数据进行过滤,例如消除数据的不一致性;将多个数据源中的数据统一为一个数据存储等。预处理数据的效果直接影响到挖掘算法产生的规则和模式。数据预处理主要包括站点识别、数据选择、数据净化、用户识别和会话识别等。

3) 模式发现:利用挖掘算法挖掘出有效的、新颖的、潜在的、有用的及最终可以理解的信息和知识。常用的模式发现技术包括:路径分析、关联规则挖掘、时序模式发现、聚类和分类等技术。

4) 模式分析:利用合适的工具和技术对挖掘出来的模式进行分析、解释、可视化,把发现的规则模式转换为知识。

6 常用的数据挖掘技术

6.1 路径分析技术

我们通常采用图的方法来分析Web页面之间的路径关系。G=(V,E),其中:V是页面的集合,E是页面之间的超链接集合,页面定义为图中的顶点,而页面间的超链接定义为图中的有向边。顶点v的入边表示对v的引用,出边表示v引用了其他的页面,这样形成网站的结构图,从图中可以确定最频繁的访问路径。路径分析技术常用于进行改进站点的结构。如70%的用户访问/company/product时,是从/company开始,经过/company/new/company/products/company/product。此时可以将路径放在比较显著的地方,方便了用户访问,也提高了该产品的点击率。

6.2 关联规则技术

关联规则挖掘技术主要用于从用户访问序列数据库的序列项中挖掘出相关的规则,就是要挖掘出用户在一个访问期限(Session),从服务器上访问的页面文件之间的联系,这些页面之间并不存在直接的参引(Reference)关系。使用关联规则可以发展很多相关信息或产品服务。例如:某信息A和B,同时被很多用户浏览,则说明A和B有可能相关。同时点击的用户越多,其相关度就可能越高。系统可以利用这种思想为用户推荐相关信息或产品服务。如当当电子书店就采用了这一模式用以推荐相关书目。当你选择某本图书时,系统会自动给你推荐信息,告知“很多读者在购买此书时还购买的其他书目”。ACM数字图书馆也采用了这一思想,推出信息推荐服务“Peer to Peer”。

6.3 序列模式挖掘技术

序列模式数据挖掘技术就是要挖掘出交易集之间的有时间序列关系的模式。它与关联挖掘技术都是从用户访问下的日志中寻找用户普遍访问的规律,关联挖掘技术注重事务内的关系,而序列模式技术则注重事务之间的关系。发现序列模式,便于预测用户的访问模式,有助于开展基于这种模式的有针对性的广告服务。依赖于发现的关联规则和序列模式,能够在服务器方动态地创立特定的有针对性的页面,以满足访问者的特定需求。

6.4 聚类分类技术

分类规则可挖掘出某些共同的特性,而这一特性可对新添加到数据库中的数据项进行分类。在Web数据挖掘中,分类技术可根据访问用户而得到个人信息、共同的访问模式以及访问某一服务器文件的用户特征。而聚类技术则是对符合某一访问规律特征的用户进行用户特征挖掘。发现分类规则可以识别一个特殊群体的公有属性的描述,这种描述可以用于分类新的检索。如政府机关的用户一般感兴趣的页面是/company/product。聚类可以从Web访问信息数据库中聚集出具有相似特性的用户群。在Web事务日记中聚类用户信息或数据项能够便于开发和执行未来的市场战略。这些事务信息可以用在:在找出用户共同兴趣后,进行合作式信息推荐,共同体的成员可以互相推荐新的滚动信息;自动给一个特定的用户聚类发送销售邮件,为用户聚类动态地改变一个特殊的站点等。

7 Web挖掘的研究热点[6]

在未来一段时间内,Web挖掘研究的焦点可能会集中到以下几个方面:

1) 高性能Web搜索引擎。尽管搜索引擎性能已有了较大提高,但搜索引擎的最终目标是“理解用户需求精确返回所需”,如何翻译用户的非专业搜索请求,实现自然语言处理,涉及兴趣爬虫、元搜索引擎、垂直搜索、移动搜索和多媒体搜索等方面的研究。

2) Web数据的特征描述与监控。如何表示Web文本内容的特征数据,如何表示和识别Web中的图像、flash等多媒体数据,进而进行网页分类、内容跟踪、过滤和报警等,对于不良网站的监控等有着积极意义。

3) Web数据的获取与集成。包括Web文本特征的提取和表示,如何用一种广泛兼容的半结构化数据模型表示网页;如何抽取动态网页中的数据;如何在分布的Web中获取信息;如何在指定网页中快速定位所需的数据区;如何利用数据库和数据仓库技术查询和存储Web内容等。

4) Web数据流挖掘。Web日志、cookie、点击流等流式数据量巨大,如何识别和过滤爬虫的访问信息;如何有效收集和处理日志以外的访问数据;如何有效标识用户、设置用户会话时间等。

5) 安全与非法访问检测。如何评价Web数据信息本身的可靠和安全性;如何对Web内容、邮件、各种日志和用户访问行为的分析,识别出威胁、欺诈、入侵、无用的数据和异常行为,从而构建安全的网络环境。

6) 个性化与安全隐患。如何跟踪、学习和表达多变的用户兴趣及行为模式,在个性化服务中过滤信息,实现商业应用,在提醒个性化服务时不侵犯用户隐私等都是亟待决的问题。

7) 基于Web的模式分析技术和工具。如何将Web挖掘的结果在浏览器中可视化地表达,包括统计、关联、聚类、分类等工具开发等。

8) Web挖掘的算法改进与质量评估。由于Web数据本身的特点,使得Web挖掘不能照搬数据挖掘的理论和技术,而需要对现有的算法等方面都进行改进。Web挖掘算法和挖掘系统的性能通常需要大量用户的反馈,实际运行测试,因而缺乏有效的评价模式。

9) Web挖掘在社会领域的应用。Web已经是人类社会活动的一面镜子,如何在Web中发现社会现象、问题和热点的规律,为社会学家、经济学家、教育学者提供有价值的知识。

此外,分布式Web挖掘、语义Web挖掘、无线网络下的Web挖掘、Web2.0时代的Web挖掘、多语言环境下的Web挖掘等是值得研究的方向。同时,Web挖掘技术应用于具体领域的研究将持续受到关注,例如,银行证券、企业ERP、医疗卫生、农业、电子商务、网络教学、BLOG等。

8结束语

Web挖掘技术是一个新兴的研究领域,对它的研究和应用正在成为一个热点。伴随着Internet的快速发展,Web挖掘技术的研究和发展将会迎来更好的契机。

参考文献:

[1]EtzioniO.The World Wide Web:Quagmire or goldmine[J]. Communication of the ACM, 1996, 39(11).

[2]王玉珍.Web数据挖掘的分析与探索[J].计算机发展与应用,2003;(4).

[3]张艺雪.Web上的数据挖掘及应用[J].信息科技,2007;(3)115-116.

[4]Wang K , Zhou S, Liew S C. Building hierarchical classifiers using class proximity [C]. In: proc of VLDB’97, Edinburgh, UK, 1999:363-374.

[5]Jaideep Srivastava, Robert Cooley, Mukund Deshpande, Pang-Ning Tan, Web Usage Mining: Discovery and Applications of Usage Patterns from Web Data[J].SIGKDD Explorations, Vol. 1, Issue 2, 2000.

数据挖掘篇5

直接采用商业数据挖掘工具来帮助项目实施,是一个很好的选择。它既节省了大量的开发费用,又可以节约维护和升级的开销。本文是目前国内第一份对主流数据挖掘工具的评估报告,该报告综合了国内一流业务专家和数据挖掘专家的意见,为帮助企业进行类似评估提供了很高的参考价值。

工具种类

数据挖掘工具包括两种:

数据挖掘(Mining for Data)工具:其所用的数据都存储在已经有了明确字段定义的数据库或文本文件里,我们称之为结构化的数据挖掘工具。它主要是用来进行预测、聚类分析、关联分析、时间序列分析以及统计分析等。

文本挖掘(Text Mining)工具:它是用来从非结构化的文档中提取有价值的信息,这些信息都隐藏在文档里并且没有清晰的字段定义。文本挖掘主要是应用在市场调研报告中或呼叫中心(Call Center)的客户报怨定级、专利的分类、网页的分类以及电子邮件分类等。根据著名数据挖掘网站KDnuggets统计,目前已有50多种数据挖掘工具问世。

一般而言,目前市场上这些数据挖掘工具又可分成两类――企业型工具以及小型工具。

企业型数据挖掘工具:应用在需要高处理能力、高网络容量和大数据量的场合下。这些工具通常支持多种平台,并基于客户机/服务器结构。它通常可以直接连接一些复杂的数据管理系统(不像普通文本文件),并能处理大量的数据。这类数据挖掘工具的另一个特点是它通常提供了多种数据挖掘算法,并有能力解决多种应用问题。企业数据挖掘工具的实例有IBM的Intelligent Miner和SAS Enterprise Miner等。

小型数据挖掘工具:它与企业型的工具着眼点不同。小型数据挖掘工具或者是针对低端、低消费的用户,或者是为解决特定的应用问题提供特定的解决方案。比如Oracle公司的 Darwin,Insightful公司的Insightful Miner,等等。

工具选择

如何在众多工具中挑选出最适合本公司的呢?这的确是一个非常具有挑战性的工作。由于各个公司的背景、财务、挖掘水平各不相同,对数据挖掘工具的需求也就各不一样。到目前为止,可供参考的权威评估报告非常少。最近的一份完整而权威的数据挖掘工具评估报告是由John F. Elder IV和Dean W. Abbott在1998年完成的。可以说,它已经过时了。但一般说来,对数据挖掘工具的选择可从以下几点着眼:

公司的数据挖掘需求是短期行为还是长期使用

如果是短期行为,就购买那些能解决特定问题的软件包或外包给咨询公司。如果是长期使用,就需要购买功能比较丰富,使用比较方便,维护升级比较好的企业型数据挖掘工具。

公司的数据挖掘经验和水平

公司应该根据内部数据挖掘团队的经验和水平,选取一些经过基本培训后就能掌握的工具。而不要盲目求好,最终导致因不会使用工具而将其束之高搁,从而造成资源的浪费。

公司的数据状态

在挑选数据挖掘工具前,公司必须对现有的数据进行评估。如果没有具备进行业务主题数据挖掘(比如:风险预测)的数据或者现有格式不能满足数据挖掘工具的需求,那就需要等数据具备了,才可考虑购买工具。

公司的预算

当然,在评估数据挖掘工具时,公司也要结合自身的财务预算来决定。

工具的性能

好的工具可以更有效地挖掘出高准确和高价值的信息,所以工具性能的评估也是相当重要的。

下面,本文将结合国内某一家大公司数据挖掘工具评估的实际例子,对目前市场上最流行的数据软件工具从纯技术角度进行详细讲解和评估。从而为行内公司进行类似的工作提供参考。

工具评判

图1显示了数据挖掘工具评估的一般过程。

首先我们要通过不同途径(Internet,杂志,供应商提交材料等)尽可能多地收集数据挖掘工具的相关资料。然后,根据公司的业务需求、工具性能、公司背景等情况,确定3~5个初选对象。在确定完评估对象后,我们将从技术、业务需求、数据状态、供应商实力、财务预算等各个角度来制定比较详细的评估条款以及权值。制定完标准后,下一步就是根据所制定的标准进行逐一评分。最后,根据评分结果进行总结,从而提出数据挖掘工具的选取建议。

下面的案例,是国内某家大公司数据挖掘工具的技术评估过程:

该公司于2002年开始启动数据挖掘项目。对于该公司来说,数据挖掘是一项长期的工程。由于同时考虑到数据量大、业务需求广泛,因此本次评估对象仅限于企业级的数据挖掘工具。

根据所收集的资料,我们对目前在中国市场上最为流行的三大数据挖掘软件(SAS公司的 Enterprise Miner、IBM公司的 Intelligent Miner和SPSS公司的 Clementine,进行了评估。本次评估主要有6个主要标准,包括数据存取、数据处理、模型算法、自动建模、可视化以及其它系统要求。下面的内容说明了对每个工具在6个主要标准上进行打分的具体情况。

1. 数据存取

数据存取主要是考查数据挖掘工具或方案的数据访问能力。它通常包括文本文件、EXCEL文件、NATIVE接口和ODBC等。一般情况下,数据都存储在数据库里或文本文件中,所以相应的权值就比较高一些。

2. 数据处理

数据处理主要是考查数据挖掘工具的数据处理能力。它通常包括基本数学变化(比如log,Ln) 、连续变量的数据分段、数据整合(数据表格的合并)、数据过滤(数据的字段筛选或记录筛选)、数据转换(字符型数据转换成数字型等)、数据编码(无效数据编码或缺失数据编码等)、数据随机采样以及SQL支持等。

为了提供数据挖掘的准确性,我们经常需要对原始数据进行一系列的转换,以便从不同角度来更好地描述某种事物或行为,所以丰富的数学变化函数是非常需要的,其权值也相应地就比较高一些。

在实际建模中,我们经常会碰到这样的例子:假定要预测某种产品的购买概率,一般来说我们会采用分类模型。但是,如果已购买者和没有购买者的比例是1∶100,此时我们就需要采用过度采样(Stratified Sampling)的方法,使得已经购买者和没有购买者的比例变小(比如达到1∶6)。另外,我们也经常会随机采样50%的数据来建模,用另外50%来验证模型。所以在评估过程中,我们决定给工具的随机采样功能比较高的权值。因为数据挖掘工具经常需要和数据库打“交道”,SQL将很方便为数据的提取处理提供支持,所以我们给的权值为15%。

3. 模型算法

算法是数据挖掘工具的核心部份,算法主要包括:聚类分析、分类分析、统计分析、关联分析、相关分析、时间序列、和值预测。对于数据挖掘来说,一般最常用的算法就是值预测(比如预测个人收入、客户贡献度、股票价格等)、分类算法(比如用于风险评级、产品购买概率预测、客户流失预测等)以及聚类分析(比如用于客户分割、内幕交易监测等)。因此,我们在评估过程中,按照算法的使用频率及其重要性,给予了下表的权值。

4. 自动建模

自动建模是考查数据挖掘工具是否能够自我优化,从而方便一般的用户使用。否则,用户必须很深刻地了解算法的优缺点才能手工地优化模型。为了方便具备一般数据挖掘技术背景的用户使用,数据挖掘工具最重要的是要提供灵活的参数设置及其帮助。同时,为了增强建模的效率,模型的并行运行和自我优化也是非常重要的。

5. 可视化技术

为了方便数据挖掘人员更好地了解数据的分布和建模的结果,我们需要数据挖掘工具提供较强的可视化功能。如何评估、预测模型的效果好坏,我们通常都采用Gain Lift图来了解。因此,一个好的数据挖掘工具必须提供Gain Lift图,否则将会给用户带来很多额外的工作量。为了了解数据的分布情况,2-D图和饼图是经常用到的,所以相应的权值也比较高一些。其它比较重要的图形包括:树状显示,主要是用来显示决策树的结果;散点图,主要是用于关联分析的结果显示;线图,用来显示回归结果;ROC图,也是用来了解模型的性能。

6. 其它

为了方便国内的用户使用,首先需要的是中文支持,否则有可能造成不必要的误解。各个公司的IT环境不同,为了增加数据挖掘工具的应用灵活性,我们要使工具能在不同平台上运行。当然为了使用者的方便,界面友好也是一个重要的考查对象。在建模的过程中,我们经常会碰到过度训练的问题(训练集的准确性很高,测试集的准确性很低)。为了保证模型的质量,数据挖掘工具必须提供过度训练的解决途径。在建完模型后,我们还需要将模型的代码输出,从而可以将模型很方便地移植到决策系统上。这样,业务人员就不需要直接应用数据挖掘工具就可以通过决策系统利用数据挖掘的模型。数据挖掘工具的中文支持、过度训练解决、平台通用性、模型代码输出的权值以及评估得分如下表所示。

对于一个数据挖掘工具,最重要的是模型算法,其次是数据处理功能。我们依据上面6个主题的重要性依次加权后总体得分如下表。从总分表可以看出,SAS的数据挖掘工具在技术方面领先于IBM和SPSS的产品。

结论

虽然数据挖掘在国内目前尚处初级阶段,除了一些简单的统计分析以外,绝大部分企业还不具备这方面的知识和技能。但最近两年来,国内一些大型企业或金融机构已经认识到数据挖掘的先进性和必要性,开始了这方面的立项和实施工作。

数据挖掘篇6

关键词:数据挖掘;Web挖掘

Abstract:With the rapid development and popularization of Internet / Web technology, a wide range of information can be accessed in the network at very low cost. The focus of data mining is How to find useful information in the world's largest data collection. Web mining is a very important research in the field of data mining. This paper outlines the areas of Web data mining research and its status quo and development.

Key words: data mining;web mining

数据挖掘(Data Mining,DM)是指从大量数据中提取或“挖掘”知识,即从存放在数据库、数据仓库或其他信息库中的大量数据中挖掘知识的过程。随着以数据库、数据仓库等数据仓储技术为基础的信息系统在各行各业的应用,海量数据不断产生,随之而来的问题,便是如此多的数据让人难以消化,无法从表面上看出他们所蕴涵的有用信息。如何从大量的数据中找到真正有用的信息成为人们关注的焦点,数据挖掘技术也正是伴随着这种需求从研究走向应用。各种类似Google、百度等的搜索引擎也层出不穷,Web数据挖掘的应用在现实中不断体现。

1 Web挖掘概述

近年来,随着Internet/Web技术的快速普及和迅猛发展,使各种信息能以非常低的成本在网络上获得,而从中取得的数据量便难以计算,而且Internet/WWW的发展趋势继续看好,特别是电子商务的蓬勃发展为网络应用提供了强大支持,因此,如何在WWW这个全球最大的数据集合中发现有用信息,无疑将成为数据挖掘研究的热点。而Web挖掘便是指使用数据挖掘技术在WWW数据中发现潜在的、有用的模式或信息。它建立在对大量的网络数据进行分析的基础上,采用相应的数据挖掘算法,在具体的应用模型上进行数据的提取、筛选、转换、挖掘和模式分析,最后作出归纳性的推理。Web挖掘研究覆盖了多个研究领域,包括数据库技术、信息获取技术、统计学、人工智能中的机器学习和神经网络等。

2 Web挖掘流程

与传统数据和数据仓库相比,Web上的信息是非结构化或半结构化的、动态的,并且是容易造成混淆的,所以很难直接以Web网页上的数据进行数据挖掘,而必须经过必要的数据处理。典型Web挖掘的处理流程如下:

(1)查找资源。从目标Web文档中得到数据。这些信息资源不仅限于在线Web文档,还包括电子邮件、电子文档、新闻组或者网站的日志数据甚至是通过Web形成的交易数据库中的数据等。

(2)信息选择和预处理。从取得的Web资源中剔除无用信息,将信息进行必要的整理。例如,从Web文档中自动去除广告连接和多余格式标记、自动识别段落或者字段,并将数据组织成规整的逻辑形式甚至是关系表。

(3)模式发现:自动进行模式发现。可以在同一个站点内部或在多个站点之间进行。

(4)模式分析:验证、解释上一步骤产生的模式。可以是机器自动完成,也可以是与分析人员进行交互来完成。

Web挖掘作为一个完整的技术体系,在进行挖掘之前的信息获得IR(Information Retrieval)和信息抽取IE(Information Extraction)相当重要。信息获得(IR)的目的在于找到相关Web文档,它只是把文档中的数据看成未经排序的词组的集合;而信息抽取(IE)的目的在于从文档中找到需要的数据项目,它对文档的结构和表达的含义感兴趣,它的一个重要任务就是对数据进行组织整理并适当建立索引。

3 Web数据挖掘的分类

Web数据挖掘是一项具有挑战性的课题,它实现对Web存取模式、结构和规则以及动态的Web内容的查找。一般来说,Web数据挖掘可分为4类:Web内容挖掘、Web结构挖掘、Web使用记录挖掘和Web用户性质挖掘。其中,Web内容挖掘、Web结构挖掘和Web使用记录挖掘是Web1.0时代就已经有了的,而Web用户性质挖掘则是伴随着Web2.0而出现的。

3.1 Web内容挖掘

Web内容挖掘指从Web内容、数据、文档中发现有用信息,主要包括文本挖掘和多媒体挖掘两类,其对象包括文本、图像、音频、视频、多媒体和其他各种类型的数据。

目前,Web内容挖掘一般从两个不同的观点来进行研究:一种是从资源(IR)查找的方面来看,即从用户的角度出发,研究怎样提高信息质量和帮助用户过滤信息。这方面的研究大部分都是建立在词汇袋(bag of words)或称向量表示法(vector representation)的基础上,它将单个的词汇看成文档集合的属性,只从统计的角度将词汇孤立地看待,而忽略该词汇出现的位置和上下文环境。这种方法的弊端是自由文本中的数据丰富,词汇量非常大,处理起来很困难,为解决这个问题人们作了相应的研究,采取了不同技术,如信息增益、差异比等。

另外一种是从数据库(DB)的观点进行Web内容挖掘,主要是试图建立Web站点的数据模型并加以集成,以支持复杂查询,而不只是简单的基于关键词的搜索。这要通过找到Web文档的模式、建立Web知识库来实现。数据库技术应用于Web挖掘主要是为了解决Web信息的管理和查询问题。

3.2 Web结构挖掘

Web结构挖掘的对象是Web本身的超链接,即对Web文档的结构进行挖掘。由于有用的知识不仅包含在Web页面的内容中,而且也包含在页面的结构中,所以Web结构挖掘是从站点的组织结构和页面结构中推导出知识,找出数据链的结构进行分类、聚类,从而发现页面间的关系,进而改进搜索引擎的性能。对于给定的Web文档集合,应该能够通过算法发现它们之间链接情况的有用信息,文档之间的超链接反映了文档之间的包含、引用或者从属关系,引用文档对被引用文档的说明往往更客观、更概括、更准确。

Web结构挖掘在一定程度上得益于社会网络和引用分析的研究。Web结构挖掘的基本思想是将Web看作一个有向图,它的顶点是Web页面,页面间的超链接就是图的边,然后利用图对Web的拓扑结构进行分析。Web结构挖掘算法一般可分为查询相关算法和查询独立算法两类。查询相关算法需要为每一个查询进行一次超链分析从而进行一次值的指派;而查询独立算法则为每个文档仅进行一次值的指派,对所有的查询都使用此值。HITS和Page Rank分别是查询相关算法和查询独立算法的代表。他们的共同点是使用一定方法计算Web页面之间超链接的质量,从而得到页面的权重。著名的Clever和Google搜索引擎就采用了该类算法。

3.3 Web使用记录挖掘

Web使用记录挖掘也叫Web日志挖掘或Web访问信息挖掘,在新兴的电子商务领域有重要意义,它通过挖掘相关的Web日志记录,来发现用户访问Web页面的模式,通过分析日志记录中的规律,可以识别用户的忠实度、喜好、满意度,可以发现潜在用户,增强站点的服务竞争力。Web使用记录数据除了服务器的日志记录外,还包括代理服务器日志、浏览器端日志、注册信息、用户会话信息、交易信息、Cookie中的信息、用户查询等一切用户与站点之间可能的交互记录。可见,Web使用记录的数据量是非常巨大的,而且数据类型也相当丰富。根据对数据源的不同处理方法,Web用法挖掘可以分为两种:①将网络服务器的日志文件作为原始数据,应用特定的预处理方法进行处理后再进行挖掘;②将网络服务器的日志文件转换为图表,然后再进行进一步的数据挖掘。通常,在对原始数据进行预处理后就可以使用传统的数据挖掘方法进行挖掘。

3.4 Web用户性质挖掘

Web用户性质挖掘是伴随着Web2.0出现的。基于RSS、Blog、SNS以及Wiki等互联网软件的广泛应用,Web2.0帮助人们从Web1.0时代的各大门户网站“填鸭”式的信息轰炸,过渡到了“人人对话”,每个普通用户既是信息的获取者,也是信息的提供者。面对Web2.0的诞生,Web数据挖掘技术又面临着新的挑战。

在Web2.0时代,网络彻底个人化了,它完全允许客户用自己的方式、喜好和个性化的定制服务创造自己的互联网,它一方面给予互联网用户最大的自由度,另一方面给予有心商家有待发掘的高含金量信息数据。通过对Web用户自建的RSS、Blog等Web2.0功能模块下客户信息的统计分析,能够帮助运营商以较低成本获得准确度较高的客户兴趣倾向、个性化需求以及新业务发展趋势等信息。有关Web2.0下的数据挖掘,根据数据来源、数据类型、数据集合中的用户数量、数据集合中的服务器数量等将Web用户性质挖掘分为5类:

(1)个性挖掘。针对单个用户的使用记录对该用户进行建模,结合该用户基本信息分析他的使用习惯和个人喜好,目的是在电子商务环境下为该用户提供与众不同的个性化服务。

(2)系统改进。Web服务(数据库、网络等)的性能和其他服务质量是衡量用户满意度的关键指标,Web用法挖掘可以通过用户的记录发现站点的性能瓶颈,以提示站点管理者改进Web缓存策略、网络传输策略、流量负载平衡机制和数据的分布策略。此外,可以通过分析网络的非法入侵数据找到系统弱点,提高站点安全性,这在电子商务环境下尤为重要。

(3)站点修改。站点的结构和内容是吸引用户的关键。Web挖掘通过用户的行为记录和反馈情况为站点设计者提供改进的依据,比如页面连接情况应如何组织、哪些页面能够直接访问等。

(4)智能商务。用户怎样使用Web站点的信息,无疑是电子商务销售商关心的重点,用户一次访问的周期可分为被吸引、驻留、购买和离开4个步骤,Web挖掘可以通过分析用户点击流等Web日志信息挖掘用户行为的动机,以帮助销售商合理安排销售策略。

(5)Web特征描述。这类研究关注怎样通过用户对站点的访问情况,统计各个用户在页面上的交互情况,以及对用户访问情况进行特征描述。

4 结束语

数据挖掘篇7

关键词:海量;数据挖掘技术;探究

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2014)20-4646-02

Technology of Data Mining

WANG Fang ,WANG Shui-ping

(Zhengzhou Vocational College of Economics and Trade,Zhengzhou 450000,China)

Abstract: In recent years, due to the rapid development and wide application of science and technology, so as to further accelerate the pace of development of the informationization construction. Although the collection ability and information quantity information has been further improved and growth, but the people of large-scale data analysis, knowledge utilization is not enough; the simple query and statistical system with traditional data will be very difficult to meet the development demand of modern society. Since the introduction of mass data of current social development technology can better meet the needs of mining, the data warehouse shift data information into a reusable, high application value, which provides reliable technical support for the development of the industry.

Key words: mass; data mining; inquiry

近年来,随着科学技术的发展和应用,促使我国的信息化发展步入到一个全新的发展阶段,极大地提升了人们的生活水平与生产效率。同时,也使各行业进入到信息化发展的轨道上,进一步提升了企业生产效益。正是由于经济的飞速发展,各行业发展都已积累了海量的数据信息。那么怎样才能把这些海量信息予以统计、分析及利用成为当前各行业需要解决的首个问题。而自出现海量数据挖掘技术后,保证了海量数据信息的合理利用,同时更能加快我国信息化技术的发展。

1 关于数据挖掘概念的论述

1.1 概念

海量数据挖掘技术指的是把海量数据信息有针对性地进行提炼、分类和整理,从而将隐含在最深层次的信息挖掘出,为各行业发展提供可靠的数据信息支持。换言之,海量数据挖掘技术利用当前最先进的数据分析工具从海量数据信息内部挖掘数据信息以及模型间的关系的一种技术统称,更加深入的认识与了解数据模型,并对各自模型件的关系对应关系予以深入分析,从而更好地指导各行业的生产与发展,同时为其提供更多决策性的技术支持。

1.2 特点

第一,海量数据挖掘技术重点针对的是各行业数据库内部海量数据信息进行的处理,而且此类数据信息均为预处理过的,因此这些都属于结构化的数值信息;第二,通过引入数学统计知识来构建挖掘模型,设计挖掘算法,从而挖掘出最有用的信息,并揭露出数值信息间存在的这种内在关系;第三,在构建挖掘模型后,可以更好地指导用户行为。

1.3 含义

首先,通常海量数据挖掘技术应用在各行业的生产和发展决策方面,也就是说数据挖掘工作将面临着巨大的数据信息,并且此类数据信息多数为模糊的、无规律的;其次,在建立高效、易理解的数据模型有助于实现海量数据挖掘;再次,数据挖掘模型的构建主要目的是想帮助用户解决实际存在的问题,在经过对海量数据信息进行挖掘之后,从中找出利用价值高的信息,再对此类信息予以统计、整理和分析,最终用于指导各行业的生产与发展;最后,开展数据挖掘工作主要是为从海量数据信息里找出有价值的数据信息,这并不是单纯的数学性研究,其根本目的是从各行业的海量数据信息中找出有价值的数据信息,它具有相应的约束条件,且面向的是针对性较强的数据挖掘模型。

2 海量数据挖掘分析

2.1 处理过程

事实上,数据挖掘过程不能够自动生成,必须通过人工建模来实现,因此,人需要完成大部分的工作。其中,主要包含数据采集、数据预处理、数据选择、建立挖掘模型及评估模型等。

2.2 关键技术

数据挖掘篇8

【关键字】 数据挖掘;效益;信息

华人数据挖掘第一人韩家炜给数据挖掘下定义:数据挖掘,就是从大型数据库中抽取有意义的(非平凡的、隐含的,以前未知的并且有潜在价值的)信息或模式的过程。在国外数据挖掘给很多的企业带来了实际效益,但是,在国内数据挖掘还不能得到企业的足够认识。

一、企业数据挖掘工作存在的问题

(一)数据挖掘工作得不到企业领导重视

许多企业的领导认为数据挖掘只不过是数据的加加减减或汇总,并不能象会计核算、收支把关等马上看到实际效益,所以,数据挖掘工作没有专职人员和部门。目前商业决策面临的最大挑战不是缺少数据,而是数据太多。大部分企业无法发掘数据的价值给公司决策层提供支持。决策人员的困惑在于,一是海量数据无边无际,企业现有的信息系统无法高效地处理;二是数据混乱,根本找不到解决的方法。所以,数据挖掘工作就更得不到领导的重视了。

(二)台帐和原始记录不健全

在数据的原始积累中,很多企业的台帐和原始记录不健全,数据统计随意性较大,数据质量很低。

(三)工作人员的素质普遍不高

由于很少企业有专职的数据挖掘人员,所以数据挖掘工作人员多以其他工作为主,数据挖掘工作为辅。这些人员或学历较低、素质较差、事业心不足、责任感不强,对数据挖掘工作的积极性、主动性就远不及专职人员,也没有多少自觉性挤出时间去学习数据挖掘理论,提高自身的业务水平。实际工作中,往往凭经验或运用不正确、不恰当的方法进行数据的收集、整理、汇总和加工,造成数据的差错、失误,很少甚至不向企业领导及有关部门适时提供针对本企业经营管理所需要的简单有效的内部数据资料,更谈不上进行数据调查、分析与预测。

由于企业数据挖掘工作存在诸多问题,所以对企业经营管理者决策的参考作用就有所减弱,或者说就没有发挥过太大的作用。作用越小就越得不到重视,越得不到重视就越难以有效发挥作用。

二、数据挖掘对企业发展的作用

(一)数据挖掘为企业管理提供有用信息

数据挖掘既可以反映企业在某一时点上的现状(企业的规模、人员、资产、负债等),也可以反映企业在一个特定时期内的动态(生产发展情况、产品质量状况、科技开发、经营销售、财务盈亏等),更重要的,它还可以预测未来趋势。数据挖掘以提供有用的信息为目标,为企业发展战略的研究和制定、以及为各项职能管理提供必要的信息,为防范和化解风险,发挥其预警作用,因此,数据挖掘是影响企业管理层决策成败的关键。

(二)数据挖掘是企业管理的基础

数据挖掘在企业科学管理过程中扮演着不可替代的角色,随着我国市场经济的进一步发展,企业与外部环境的联系日益密切,企业越来越需要与其生产经营管理相适应的产品、原材料、市场等信息,这些信息需要数据挖掘来完成。通过数据挖掘还能获得企业的同行业资料、竞争对手的资料和本企业的生产经营情况,这样才能做到知己知彼,制定出企业的长期发展战略,并在激烈的市场竞争中求得发展。

三、企业如何进行数据挖掘

企业内部数据挖掘应以全方位为企业生产经营管理提供内外部信息为目标,其目标服务的对象是企业,具体包括企业的决策者、管理者、投资者、债权人、合作者、供应商和客户等。

(一)形成全面有效的数据信息系统

当今社会,企业将外部环境扩展到世界经济领域,就必须对企业所面临的国内外资源环境、社会环境、市场环境、人文环境、法律环境以及体制环境等信息加以分析和考核,不仅需要对环境的现状进行了解,还要针对环境未来的变化趋势进行研究和判断。企业外部环境因素是复杂多变不可抗拒的因素,这些要素有的是确定的,带有规律性;有的是偶然的,带有随机性;有的是显性的,有的是隐性的;有的是硬环境,可以定量分析,有的是软环境,不可定量分析。世界范围内各国、各地区的经济相互交织、相互影响,融合成统一的整体,形成全球统一市场。高科技下的信息化、网络化及知识经济又使全球性市场格局日新月异、竞争激烈。面对激烈的市场竞争,企业应扩大视野、放宽口径,积极拓展企业数据的空间范围,增加外部环境数据收集,形成全面有效的企业数据信息系统。

信息的记录和保存方式已由传统的纸载逐步转变为磁载和光载,使企业能够建立大容量的数据库。调查手段开始使用信息技术收集数据,如开发功能性强的互联网调查方案,资料的取得越来越多地通过电子网络来进行。企业可以建立数据调查网络平台,在系统内进行高效的数据信息传输,在系统外能与社会网络有效对接。利用数据信息系统的存储、检索、统计功能取代手工加工整理工作,实现信息加工整理的现代化、科学化、规范化。

(二)获取企业领导的重视

数据挖掘不能单纯的以生产经营数据收集为主,而应服务于企业经济效益最大化目标,重视产品结构的调查、投入与产出的比例关系、目标成本的控制、资金运用及其效果等方面的研究,以为企业经营管理服务为主体,增强数据挖掘的预测功能。加强对企业经济运行状况的跟踪调查和分析,发挥定量检查、监测和预警的功能,为企业的发展提供有效的预测数据,使企业获得良好的经济效益,从而获取企业领导的重视。

(三)建立健全数据挖掘的管理体制与运行方式

长期以来,在不同类型的企业中,各种数据挖掘工作分别由不同的部门负责,分别向主管领导呈送。这种管理体制及运行方式存在着诸多弊端。所以,笔者认为不论何种行业的大中型企业,都应设立数据挖掘机构,至少要设立数据挖掘工作岗位,明确其职能,并使其保持相对独立性。这样一个专门的部门可以从企业适应市场竞争的多侧面多角度、从经营管理的全方位来综合考虑企业需要的各种数据信息,对企业目前搜集汇总的各种数据信息进行更高层次的配套综合分析,企业各部门之间也能够实现有效的信息交换与共享。

(四)科学设置和完善指标体系,规范企业数据挖掘工作,确保数据挖掘结果为企业经营管理服务

根据企业管理需要设计数据挖掘指标体系,克服贪大求全的作法,处理好宏观与微观、需求与可行的关系,删繁就简,讲究高效务实。指标体系的内容应包括企业业务发展状况,企业运营收入、效益和投资情况,企业人力资源等方面的信息,并且尽量使指标按市场要求细化。指标体系应从指标名称、指标概念、口径、审核关系、取数来源等方面进行统一规范和要求,力求指标设置更加科学化。随着企业生产规模的不断扩大,新型业务的不断出现,市场竞争格局不断变化,要对指标体系及时进行调整。指标的设置,应以满足整个企业特别是业务发展部门的需求为主,坚持适度超前,并不断扩大指标规模,力争以规模效应为企业决策提供服务支撑。指标体系要能客观有效地反映本企业在建立现代企业制度过程中和市场经济条件下的经济效益、市场竞争能力、主要业务的发展前景等重要信息。

(五)以科技为手段,加快数据信息网络建设,增强企业数据挖掘的决策功能

随着现代信息技术的飞速发展,信息网络时代已经进入到各行各业,并发挥了越来越重要的作用。企业数据挖掘工作应充分利用信息化技术的优势,建立健全数据信息网络,实现主要数据的及时更新。企业应充分运用现代科技管理水平和计算机技术,广泛收集信息,加快信息处理、传递和反馈速度,进一步提高数据质量,加快数据信息的传递与应用,增强企业数据挖掘的决策功能。

(六)提高数据挖掘工作人员素质

数据挖掘工作人员需要具有一定数据挖掘业务基础和专业技术。同时,工作人员要责任心强、上进心足,精通信息处理和网络运用。这就要求工作人员要善于学习,不断提高自己的业务素质,有责任心、富有时代感,并具有开拓创新精神。企业领导应为数据挖掘工作人员创造机会,组织他们学习数据挖掘知识及相关的业务知识、法律制度和电脑知识,支持他们参加各种培训及工作会议,引导他们积极提供数据资料,主动参与企业管理,对工作积极并有较大贡献或较快进步者,应该及时给予表彰。

通过以上方法,企业必能充分运用数据挖掘,发现为企业所用的各种信息,使业务更上一层楼。

参考资料

[1]韩家炜.《数据挖掘的概念与技术》.机械工业出版社,2007(3)

[2]何光云.《数据挖掘与展现在企业管理中的作用》.中国论文下载中心.2009(8)

上一篇:数据可视化范文 下一篇:数据分析师范文