浅谈数据挖掘与数据挖掘服务的实现

时间:2022-10-18 07:15:03

浅谈数据挖掘与数据挖掘服务的实现

摘要:本文简述了数据挖掘的概念、数据挖掘系统、数字挖掘步骤以及数据挖掘服务的实现。

关键词:数据挖掘;因特网;服务

中图分类号:F241.4文献标识码:A文章编号:1007-9599 (2010) 01-0000-01

一、数据挖掘的概念

数据挖掘(Data Mining)最早是在数据库领域发展起来的。称为数据库中的知识发现(KDD ,Knowledge Discovery in Database),数据挖掘是从大量的包括结构化和非结构化数据中提取隐含在其中的、事先不为人知的、潜在的、有用的信息和知识的过程,它要求数据源应该是大量的、真实的、多媒体的,所发现和提取的信息和知识是潜在的、有效的并隐藏在大量数据背后,是用户感兴趣的、可理解、可运用的知识,数据挖掘是一个利用各种分析工具在海量数据中发现模型和数据间关系的过程。

二、数据挖掘的系统简介

(一)AuthorLink系统。最近,美国开发出了基于文献计量分析的知识查询系统,并借助于可视化技术首次将复杂的统计结果,用通俗易懂的图像形式显示给用户,从而实现了知识信息提供服务的一次变革。

(二)专利统计分析系统。人们关于专利的统计分析,事实上也是一种知识挖掘。目前,包括英国的WPI及美国、日本专利局等网络站点,都在提供专利文献检索服务的同时提供专利统计分析的服务。

(三)OLAP系统。OLAP系统(On-Line Analytical Process2ing,联机分析处理系统)也是一种典型的数据挖掘系统。这是一种含有数据导航、数据查询、建模、预测和数据挖掘的数据分析系统。其中OLAP引擎可以在前端接口接受用户提交的多维提问,并转换成SQL语句,然后将提问查询提交数据库,最后以图表的形式输出。

三、数据挖掘的步骤

(一)确定应用领域:包括此领域的基本知识和目标。

(二)建立目标数据集:选择一个数据集或在多数据集的子集上聚焦。

(三)数据预处理:在大数据集中,根据需求,利用数据净化和整合技术,选择与任务相关数据,在不降低其准确度的状况下减少处理数据量。

(四)数据转换:找到数据的特征进行编码,减少有效变量的数目。

(五)数据挖掘:根据数据和所要发现知识的种类来确定相应的挖掘算法。

(六)数据评价:将挖掘出的知识和数据以各种可视化方式显示,并将其以图形、文本等方式存储在库中,以便对它们进一步挖掘,直至满意为止。

(七)实施和应用:实施和应用阶段是指利用数据挖掘技术所建立模型在实际项目中的应用,包括数据库的构建,个性化用户服务、基于知识的企业信息管理(MIS)、金融、证券、股票分析、电子商务、企业目标管理、决策支持等等。

四、数据挖掘服务的实现

(一)数据挖掘为个性化服务打下基础。收集用户有关的信息,建立用户信息库。用户是数字图书馆的重要资源,一个信息完整的用户信息库,能保证在充分挖掘的基础上,了解用户的普遍性需求与特殊性需求,从而开展有针对性的个性化服务。通过对用户访问日志记录信息的挖掘,把握用户兴趣,有助于开展网络信息推送服务以及个人信息的定制服务。但从用户群整体来看,用户的信息需求又是随机的,这为一般用户需求信息分析带来了很大困难。数据挖掘从全局出发,以丰富、动态的联机查询和分析来了解用户的信息需求。通过在线提问、调查表等方式,系统可以获取关于用户的用户名、用户访问IP地址、用户的职业、年龄、爱好等原始信息。然后,采取一定的挖掘规则(如关联规则、联机分析处理等),对这些数据进行融合分析,其结果是为每个用户建立一个信息需求模型。根据用户需求,主动跟踪本地信息库和网络相关信息,收集用户所需信息。为了提高准确度,还应对所收集的信息进行相关性分析,可以根据用户提供的检索词,确定所检索到的信息与该检索词的相关度。同时还可以利用智能推送技术将用户所需信息推到用户的计算机、电子信箱,甚至手机、PDA上。

(二)数据挖掘使网络资源的内容检索成为可能。网络内容挖掘是一个从文本、图像、音频、视频、元数据等形式的网络源信息中采用分类、聚类等形式的挖掘方法,发现有用信息,并将这些信息按满足某种检索方式的形式加以组织的过程。通过对网站内容的挖掘,主要是对文本内容的挖掘,可以有效地组织网络资源。有的学者应用数据和文本挖掘技术在网络上进行问题跟踪,从而获得了以前未知的有用知识,为信息内容分析提供了极大的可能性。网络内容挖掘是目前网络信息检索发展的一个关键,通过对网页内容挖掘,可以实现对网页的聚类、分类,实现网络信息的分类浏览与检索;通过对用户所使用的提问式(query)的历史记录分析,可以有效地进行提问扩展(query expansion),提高查全率和查准率;可以运用网络内容挖掘技术进行关键词加权算法,提高网络信息的标引准确度,从而改善检索效果。

(三)数据挖掘是获取全而广的知识信息的保障。网络知识的挖掘就是要在具有极度不确定性的海量数据中找出信息分布的规律,挖掘隐藏的信息并形成模型,从而发现具有规律性的知识。如:江苏南通师范学院对重点学科“古代文学”中的楚辞研究专题知识库开发为例。他们采用学科专家与学科馆员、系统管理员相结合组成工作组的开发模式来收集、挖掘与获取楚辞研究专题信息资源,包括楚辞研究的结构化文本信息和非结构化的多媒体音像、图片资料信息、网上超文本信息,提高了原始资料采集的深度和精度。同时由于楚辞研究的信息资源浩如烟海,采用人工的方式查询根本无法达到收全率和知识库源信息广度要求,因此采用自动抓取和人工过滤相结合的方式,利用非结构化的数据挖掘技术以采集和获取全而广的楚辞研究知识信息源

参考文献:

[1]刘彩虹,杨玉红.论图书馆文献信息服务的创新[J].图书馆工作与研究,2002,1:59-61

[2]颜惠,吴小穗.MetaCrawler集成搜索引擎[J].图书馆工作与究,2002,3:46-47

[3]周黎明,邱均平.基于网络的内容分析法[J].情报学报,2005,5:594-599

上一篇:蓄电池智能巡检系统开发 下一篇:集中计费中欠费和预存对账分析及探讨