数据挖掘技术分析论文范文

时间:2023-02-25 02:31:30

数据挖掘技术分析论文

数据挖掘技术分析论文范文第1篇

[关键词]数据挖掘数据挖掘方法

随着信息技术迅速发展,数据库的规模不断扩大,产生了大量的数据。但大量的数据往往无法辨别隐藏在其中的能对决策提供支持的信息,而传统的查询、报表工具无法满足挖掘这些信息的需求。因此,需要一种新的数据分析技术处理大量数据,并从中抽取有价值的潜在知识,数据挖掘(DataMining)技术由此应运而生。

一、数据挖掘的定义

数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。它可帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。数据挖掘的过程也叫知识发现的过程。

二、数据挖掘的方法

1.统计方法。传统的统计学为数据挖掘提供了许多判别和回归分析方法,常用的有贝叶斯推理、回归分析、方差分析等技术。贝叶斯推理是在知道新的信息后修正数据集概率分布的基本工具,处理数据挖掘中的分类问题,回归分析用来找到一个输入变量和输出变量关系的最佳模型,在回归分析中有用来描述一个变量的变化趋势和别的变量值的关系的线性回归,还有用来为某些事件发生的概率建模为预测变量集的对数回归、统计方法中的方差分析一般用于分析估计回归直线的性能和自变量对最终回归的影响,是许多挖掘应用中有力的工具之一。

2.关联规则。关联规则是一种简单,实用的分析规则,它描述了一个事物中某些属性同时出现的规律和模式,是数据挖掘中最成熟的主要技术之一。关联规则在数据挖掘领域应用很广泛适合于在大型数据集中发现数据之间的有意义关系,原因之一是它不受只选择一个因变量的限制。大多数关联规则挖掘算法能够无遗漏发现隐藏在所挖掘数据中的所有关联关系,但是,并不是所有通过关联得到的属性之间的关系都有实际应用价值,要对这些规则要进行有效的评价,筛选有意义的关联规则。

3.聚类分析。聚类分析是根据所选样本间关联的标准将其划分成几个组,同组内的样本具有较高的相似度,不同组的则相异,常用的技术有分裂算法,凝聚算法,划分聚类和增量聚类。聚类方法适合于探讨样本间的内部关系,从而对样本结构做出合理的评价,此外,聚类分析还用于对孤立点的检测。并非由聚类分析算法得到的类对决策都有效,在运用某一个算法之前,一般要先对数据的聚类趋势进行检验。

4.决策树方法。决策树学习是一种通过逼近离散值目标函数的方法,通过把实例从根结点排列到某个叶子结点来分类实例,叶子结点即为实例所属的分类。树上的每个结点说明了对实例的某个属性的测试,该结点的每一个后继分支对应于该属性的一个可能值,分类实例的方法是从这棵树的根结点开始,测试这个结点指定的属性,然后按照给定实例的该属性值对应的树枝向下移动。决策树方法是要应用于数据挖掘的分类方面。

5.神经网络。神经网络建立在自学习的数学模型基础之上,能够对大量复杂的数据进行分析,并可以完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析,神经网络既可以表现为有指导的学习也可以是无指导聚类,无论哪种,输入到神经网络中的值都是数值型的。人工神经元网络模拟人脑神经元结构,建立三大类多种神经元网络,具有非线形映射特性、信息的分布存储、并行处理和全局集体的作用、高度的自学习、自组织和自适应能力的种种优点。

6.遗传算法。遗传算法是一种受生物进化启发的学习方法,通过变异和重组当前己知的最好假设来生成后续的假设。每一步,通过使用目前适应性最高的假设的后代替代群体的某个部分,来更新当前群体的一组假设,来实现各个个体的适应性的提高。遗传算法由三个基本过程组成:繁殖(选择)是从一个旧种群(父代)选出生命力强的个体,产生新种群(后代)的过程;交叉〔重组)选择两个不同个体〔染色体)的部分(基因)进行交换,形成新个体的过程;变异(突变)是对某些个体的某些基因进行变异的过程。在数据挖掘中,可以被用作评估其他算法的适合度。

7.粗糙集。粗糙集能够在缺少关于数据先验知识的情况下,只以考察数据的分类能力为基础,解决模糊或不确定数据的分析和处理问题。粗糙集用于从数据库中发现分类规则的基本思想是将数据库中的属性分为条件属性和结论属性,对数据库中的元组根据各个属性不同的属性值分成相应的子集,然后对条件属性划分的子集与结论属性划分的子集之间上下近似关系生成判定规则。所有相似对象的集合称为初等集合,形成知识的基本成分。任何初等集合的并集称为精确集,否则,一个集合就是粗糙的(不精确的)。每个粗糙集都具有边界元素,也就是那些既不能确定为集合元素,也不能确定为集合补集元素的元素。粗糙集理论可以应用于数据挖掘中的分类、发现不准确数据或噪声数据内在的结构联系。

8.支持向量机。支持向量机(SVM)是在统计学习理论的基础上发展出来的一种新的机器学习方法。它基于结构风险最小化原则上的,尽量提高学习机的泛化能力,具有良好的推广性能和较好的分类精确性,能有效的解决过学习问题,现已成为训练多层感知器、RBF神经网络和多项式神经元网络的替代性方法。另外,支持向量机算法是一个凸优化问题,局部最优解一定是全局最优解,这些特点都是包括神经元网络在内的其他算法所不能及的。支持向量机可以应用于数据挖掘的分类、回归、对未知事物的探索等方面。

事实上,任何一种挖掘工具往往是根据具体问题来选择合适挖掘方法,很难说哪种方法好,那种方法劣,而是视具体问题而定。

三、结束语

目前,数据挖掘技术虽然得到了一定程度的应用,并取得了显著成效,但仍存在着许多尚未解决的问题。随着人们对数据挖掘技术的深人研究,数据挖掘技术必将在更加广泛的领域得到应用,并取得更加显著的效果。

参考文献:

数据挖掘技术分析论文范文第2篇

关键词 技术情报分析;数据挖掘

中图分类号TP392 文献标识码A 文章编号 1674-6708(2013)92-0211-02

1 概述

在面对海量的情报信息资源时,如何高效、准确的开展分析工作,为管理决策人员提供支持,已成为当今科技工作的重要组成部分。可以说,情报分析方法和相关工具的合理使用决定了情报获取的准确性和有效性,并将直接影响制定战略决策的有效性和科学性。

技术情报分析系统主要进行与技术相关科技论文、专利、互联网情报数据的分析,实现分析方法、算法、分析结果的表现形式以及分析报告自动生成等技术。该情报分析系统除了基本的维度统计分析外,更多的侧重于利用知识发现、数据挖掘等技术进行情报数据的深度处理与分析。通过情报分析系统开发设计,结合数据挖掘等技术的合理使用,使得系统使用者能够快速、有效、全面地获取技术的情报信息。

2 系统的设计与功能描述

2.3 数据挖掘技术设计

2.3.1数据文本特征表示

在进行文本挖掘时,对文本特征进行处理,实现对非结构化的文本向结构化转换。情报分析系统采用向量空间模型(Vector Space Model,VSM)进行文本的表示,并利用倒排文档频率TFIDF进行专利文本的特征提取,以此作为论文、专利文本挖掘的基础。

2.3.2关联算法

在挖掘论文专利作者之间、机构之间、国家之间的研究内容关联性上,采用了基于文本挖掘的关联算法。通过对技术关键词的共生关系(Terms Co-occurrences)计算来识别、确定一组文献内部所包含的技术组(群)。

2.3.3 层次结构可视化算法

情报分析系统中关于论文和专利的引证分析、专利同族分析采用了层次结构可视化算法Hyperbolic Tree,即双曲树算法。其主要原理是将树结构在双曲空间进行布局,然后映射到欧式空间的庞莱卡圆盘进行显示。欧式空间中两个相同大小的区域离庞莱卡圆盘中心越近,在双曲空间中所占用的空间越小;反之,双曲空间中两个大小相同的区域离原点越近在庞莱卡圆盘中所占用的空间越大。

4 结论

本文提出运用数据挖掘方法实现对大量数据的分析和判断,可有效帮助科技情报机构和人员提高综合情报分析能力和决策的质量。同时,该方法可按照不同需要进行功能拓展,实现向更多的技术情报领域延伸。

参考文献

[1]Dongpeng Yang. Application of Data Mining in the Evaluation of Credibility, 第十一届亚太地区知识发现与数据挖掘国际会议(PAKDD),IOS Press出版, 2007.

[2]乐明扬.公安情报分析中的数据挖掘应用研究.信息与电脑.2012(8).

[3]蒲群莹.基于数据挖掘的竞争情报系统模型[J].情报杂志.2005,1.

[4]赵丹群.数据挖掘:原理、方法及其应用[J].现代图书情报技术.2000,6.

数据挖掘技术分析论文范文第3篇

【关键词】教育数据挖掘;研究现状;关键内容;发展趋势

【中图分类号】G40-057 【文献标识码】A 【论文编号】1009―8097(2010)10―0021―05

引言

对数据挖掘的研究始于20世纪80年代,现在已经成功地应用于商业、金融业和市场营销等领域。教育信息化的发展和网络远程教育的开展,导致教育领域的各类数据迅速增长,如何从海量的数据中挖掘出对教育者和学习者有用的信息,以提高教育管理绩效和学习绩效,这一问题的提出促使教育数据挖掘研究的出现。

信息技术在教育领域的广泛应用促进教育科研信息化的发展,信息化科研(e-research)是指信息技术所“使能的”科学研究实践,其发展经历了以下三个阶段(Halfpenny,2007):一是对技术的研究阶段,如技术创新、技术应用、数字鸿沟等;二是利用技术开展研究的阶段,如计算机辅助的访谈、技术支持的数据分析、社会性网络分析等;三是技术使能的研究阶段,如数据挖掘、数据处理、数据整合、数据分析、模拟、可视化等 [1]。教育数据挖掘正是数字化教育研究的体现,也是教育信息化发展的必然需求。自2005年起人工智能(AAAI)、人工智能教育应用(AIED)及智能导师系统(ITS)等国际会议开展了多次“教育数据挖掘”主题研讨会,2008年在加拿大召开了第一届教育数据挖掘国际学术会议,2009年在北京师范大学举行的第五届高级数据挖掘与应用国际会议首次加入“数据挖掘在教育中的应用”主题,2011年7月将在荷兰埃因霍温举办第四届教育数据挖掘国际会议,并且已经成功创办了专门的电子期刊――教育数据挖掘杂志(JEMD)。

一 教育数据挖掘概述

数据挖掘(DM),与数据库中的知识发现(KDD)同义,指从大型数据库中提取出有意义的、隐含的、先前未知并有潜在价值的信息或模式的非平凡过程[2]。DM的研究内容包括基础理论研究和应用研究两大类,其中基础理论研究包含方法、功能、算法以及数据挖掘系统和软件的建设等方面,应用研究的重点不在于数据挖掘技术本身,而在于成果应用,不同领域开展不同的应用研究。

教育数据挖掘(EDM)指应用数据挖掘方法从来自于教育系统的数据中提取出有意义的信息的过程,这些信息可以为教育者、学习者、管理者、教育软件开发者和教育研究者等提供服务[3]。EDM主要研究数据挖掘在教育领域中的应用,从EDM研究领域的角度分析,EDM研究包括“在教学研究中的应用”和“在教务管理中的应用”两个子类;从数据来源的角度分析,EDM研究包括“在传统教育中的应用”及“在网络教育中的应用”两个子类,结合这两个方面,可进一步对EDM研究内容进行细分,如图1所示。

数据挖掘技术可应用于招生、就业、后勤、图书馆管理、人事管理、设备管理、师资管理等方面,有助于管理者做出科学的决策。EDM更重要的意义在于指导和改善学习,提高教学质量,尤其是在网络教育中的应用。网络学习环境不能像传统课堂中通过面对面交流得到反馈,却能够记录学生的大多数学习行为,通过对网络学习系统中的学习者登记信息、日志文件、过程性数据、交互信息及管理数据等进行挖掘,如有多少人访问了该页面、来自哪里、哪些页面是最受欢迎的、用户访问完该页面后下一步可能的访问页面是什么等等,确定学习者个体或群体的特征模型,管理和监控网络学习过程,支持学生的个性化学习,指导教学及课程设计,构建有效的学习模式,改进系统及修改站点、建设适合学习者的资源,进行教与学的评价,为页面推荐和智能化学习提供服务,也可用于网络学习学生流失分析、进行教学决策等。

二 EDM研究的现状分析

1研究样本的检索及变化趋势统计分析

对国外文献,选取教育数据挖掘相关会议论文集,并且以educational data mining为检索词对Science Direct外文期刊数据库和Google中2009年12月以前的文章进行检索,筛选与数据挖掘在网络教育中的应用相关的文章。对国内文献,分别以“数据挖掘”和“网络教学”、“远程教育”、“网络教育”等为关键词和索引对中国知网中2009年12月以前的文章进行高级检索,统计时剔除和主题关系不大与重复的文章,结果如表1、2所示。

为了更加直观地分析国内外相关研究的趋势,绘制如图2所示的分布态势图,该图显示国内外对数据挖掘网络教育应用的研究总体呈上升趋势,关注度逐年增加。国外研究持续增多,并且在2008年和2009年迅速增加,两年的研究总量近乎相当于前些年的总和,主要因为2008开始召开的国际教育数据挖掘会议以及JEMD电子期刊的创办。数据挖掘网络教育应用研究在国内发展时间不长,2002年才开始有学术论文出现,随后几年缓慢增加,该领域的发展与网络教育的发展及数据的来源相关,随着广播电视大学的发展、网络精品课程的开发使用和2004年67所网络学院的成立,国内研究开始有所增加,2007年达到了一个小高峰。学术论文代表研究的广度,研究相对较浅,学位论文代表着研究的深度,是相关知识的综合运用,从2003年才有该研究的学位论文出现,短短的七年时间学位论文达到42篇,其中仅有一篇博士论文。对比国内外研究,国外正处于快速发展阶段,国内开始研究的时间滞后于国外,前些年属于引进探索阶段,现阶段正处发展初期,预计相关文献量的高速增长还将持续很长一段时间。

2研究者学科背景统计分析

国外有很多开放的网络教育数据资源,并且大多研究者都具有交叉学科背景,研究者涉及计算机领域专家、教育学家、心理学家、统计学专家等,主要研究力量集中在北美、西欧、澳大利亚和新西兰等地区。而国内EDM研究者还没有形成整体力量,基本上都是来自于高校,研究者的学科背景比较单一,其比例如图3所示,78%的计算机或相关专业,10%的教育技术学专业,12%的教育科学、管理学、心理学或其他专业。研究者大多数是计算机专业学者,他们熟练掌握数据挖掘技术,但是缺乏教育和心理学理论以及教育数据的来源,导致国内研究相对滞后。

3研究内容类目划分及分析

依据样本研究内容的性质,将数据挖掘网络教育应用的研究划分为“理论探索和方法介绍的描述性研究”、“可行性分析论证研究”“数据挖掘方法的具体应用及数据挖掘过程的实例分析”三个子类,按照这三个研究范畴对国内外学术论文的文献统计结果如表3所示。国内外对数据挖掘网络教育应用的各个研究范畴都有所涉及,国内理论描述、可行性分析和应用研究样本的分布差异不显著,理论概述类文章数量相对较多,占39.8%,这一方面说明了随着研究的发展,这一研究引起了越来越多的关注,另一方面也在某种程度上说明了研究内容相对浅显,趋于重复。国外理论描述、可行性分析和应用研究样本的分布差异非常显著,应用研究占63.92%,明显多于理论研究,国外侧重具体的应用研究,这一现象在EDM领域是非常合理的,说明国外的研究相对成熟。

通过对样本的进一步分析发现早些年理论描述和可行性分析的文献比较多,而近几年应用研究的文献大量增加,且在核心期刊上的数量居多。理论探索如早期庞先伟(2002)通过对数据挖掘技术、知识发现及资源型学习的认识探讨一种基于数据挖掘技术的资源型学习[4]。可行性分析如Ha等(2002)详细描述了将Web挖掘应用于网络远程教育的可能性,并展示了在网络远程教育中应用Web挖掘的前景[5],这一篇文章引起了人们对该研究的普遍关注。应用研究大多都是采用一定的数据挖掘方法、选用合适的数据挖掘工具,对来自于一般的网络课程、学习内容管理系统或自适应智能网络教育系统的数据进行挖掘,解决一定的教育教学问题,如孙玉荣等的《数据挖掘在网络教学中的应用》(2009)利用关联分析、序列模式分析、分类分析和聚类分析等分析方法对《数据结构》网络教学数据库的信息进行挖掘,探讨学生的学习习惯,学习兴趣和学习成绩间的关系,为网络分层教学、提升教学质量服务[6]。还有一些基于数据挖掘方法设计学习评价或个性化、智能型教学实用系统的研究,如丁卫平(2009)设计了基于数据挖掘技术的教学评估智能辅助决策平台(TEIA),并对该平台的应用情况进行了分析,结果表明该平台能智能化提取出隐藏在评估数据中有用的规律和知识,为教学评估提供决策支持[7]。

三 EDM研究的关键内容

教育数据挖掘方法的使用是EDM研究最为关键的内容。Zaiane[8]使用挖掘方法评价学习过程,帮助学习者进行网络学习,是目前EDM研究中引用次数最多的文章。Romero and Ventura[9]从EDM工具、教育数据的来源、EDM方法几个方面对1995-2005年EDM的相关文献进行了详细的描述,是了解国外EDM发展的权威资料,他们依据任务将用于网络教育系统中的特定数据挖掘方法分为统计和可视化及Web挖掘两类。

1统计和可视化

数据挖掘将描述性数据分析技术本身看作目的,而正式的统计趋向于将基于假设的检验作为最终目标,可视化是将数据信息转化为有意义的、易于理解的图像的过程,虽然它们常常不被认为是数据挖掘技术,但是作为对数据的探测方法,它们可以处理一些通常由数据挖掘解决的问题。蒋玉兰等[10]以宁波电大2000级金融专业为研究对象,采用统计和可视化图形分析学生流失的态势,旨在找出远程开放教育中学生辍学的原因。

2 Web挖掘

Web挖掘是从WWW资源上获取信息的过程,是数据挖掘技术在Web环境下的应用。依据挖掘对象的不同可以将Web挖掘分为三类:Web内容挖掘、Web结构挖掘和Web使用记录的挖掘,目前Web日志使用记录挖掘在网络学习中的应用研究最多,黄茜[11]通过对学习者在网络教育中留下的日志信息进行挖掘,以实现个性化的网络教育。在Web使用记录挖掘中,网络学习行为采集和学习者的特征分析是关键,王巧玲 [12]、吕莉等 [13]对国内外相关研究进行梳理,王巧玲的硕士论文还实现了基于Web服务的网络学习行为的采集。EDM中的Web挖掘方法可以归纳为以下三组:

(1)聚类、分类和偏差检测

聚类是一个将物理或者抽象对象的集合分组成由类似的对象组成的多个类或簇的过程。分类是通过挖掘数据中的某些共同特性从而对数据项进行分类,用分类或聚类方法划分相似学生群体或个体,以提供相似或个性化的教学。偏差检测是对一些异常或孤立点数据对象进行分析的过程。黄勇等[14]尝试采用决策树分类的D3算法,构造学习者学习能力决策树,对学习者数据库进行分类,将学习者分成学习能力强和学习能力弱的两大类。Ueno[15] 使用在线偏差检测方法分析学习者非常规学习网络课程内容的反应时间数据,指导网络教学。

(2)关联规则挖掘和序列模式挖掘

关联规则挖掘技术用于从用户访问序列数据库的序列项中挖掘出相关的规则,能够揭示学习者访问一些内容的同时会访问哪些内容,借此找出具有相关内容的网页,可更好的组织课程页面和推荐页面,尽可能缩短相关内容的分布距离,或提供便捷的路径指引。时间序列模式挖掘试图找出页面依照时间顺序出现的内在模式,能够揭示哪些内容能够激发对其它内容的访问,可以用来对学习者的浏览趋势分析,解决远程教育中针对各种层次学生进行因材施教等问题。关联挖掘技术注重事务内的关系,序列模式技术则注重事务间的关系,这两种方法的应用非常普遍。

(3)文本挖掘

Web文本挖掘主要是对Web上大量文本集合的内容进行总结、分类、聚类、关联分析以及运用Web文档进行趋势预测等,是针对非结构化或半结构化的数据集。Web内容挖掘大多是基于文本信息的挖掘,这类方法相对更加困难、复杂,Dringus and Ellis[16]使用文本挖掘策略对异步讨论区进行评价,国内尚未发现文本挖掘在网络教学研究方面的应用。

Baker也对EDM方法进行分类,分为预测、聚类、关系挖掘、人类的判断和模式发现五类。Baker and Yacef[17]对Romero and Ventura的文章中从1995年-2005年运用EDM方法的60篇论文按照Baker的分类法进行归类统计,如表4所示,又将国际教育数据挖掘会议2008年和2009年的文章进行归类统计,如图5所示(有些研究可能使用多种方法,文章被多次统计)。

对图4和图5进行对比分析,近几年对EDM方法的应用重心发生了变化,关系挖掘方法在1995-2005年间占主导地位,但在2008年和2009年下滑,预测占据了主导地位,人类判断和聚类大致保持一致,模式发现位居第二,而在1995-2005年间几乎没有此类方法应用的文章,模式发现能够真正体现EDM研究的价值。另一个趋势是来自于项目反应理论的结构方程模型分析和贝叶斯网络等方法的使用,这些变化反映了国外研究者群体的和研究领域的继续扩大。分析国内研究中使用的EDM方法,基本上一直都使用分类、聚类和关系挖掘。

除了对EDM方法的研究以外,EDM工具、EDM数据的来源、EDM过程也是研究中的关键内容,对这些问题的研究相对固定。目前所进行的研究大多使用广泛的数据挖掘工具,国外也有少数的研究者开发专门的EDM工具使用。随着网络学习人数的增加,数据的来源越来越广泛,早期需要研究者自己搜集收据,现在已经有大量的开放数据供免费使用,陶剑文等 [18]、卢永艳 [19]对网络教学中可利用的数据来源做了详细的描述,EDM数据的来源包括服务器数据、客户登记信息和级数据。曹梅[20]对数据挖掘过程的研究现状进行梳理,数据收集、数据预处理,数据挖掘和结果评价是必要的环节,整个过程是一个不断循环和反复的过程。

四 EDM的研究趋势

目前国内外研究者对EDM的前景持肯定的态度。教育信息化引起信息量的急剧增长和对信息提取的更高要求,使用计算机进行研究数据搜集、分析和处理的数字化教育研究随之发展;借助数据挖掘技术可以发现数据中隐藏的教育规律和模式,反过来教育科研信息化的进程将极大地促进教育信息化的进程。未来的研究方向主要在以下几方面:

1 EDM方法的应用研究

可视化是优先选择的方法,传统统计在数据分析方面持续发挥着作用,Web挖掘成为EDM方法研究转向的焦点。Web是一个动态性极强的信息源,数据库中的数据时刻都在发生变化,所以面向Web的数据挖掘研究极具挑战性,Web使用挖掘是其中最有前途的研究领域。Web数据挖掘通常有两种应用方式:离线式数据挖掘和在线式数据挖掘,离线式数据挖掘主要通过分析服务器访问日志来发现规律,而在线式具有实时性,难度大,但能做到及时和有效的指导和帮助,目前Web数据挖掘的主要方式还是离线式数据挖掘,而Web在线式数据挖掘很少有研究,应该加强这一方面的研究。

2 EDM方法和数据的标准化研究

标准对于任何系统都很重要,EDM领域也需要整合网络学习环境的普适化的工具和方法。数据库之间采用不同的数据存储类型、对数据的不同定义等问题导致了不一致的现象,数据标准化的主要功能是消除变量间的量纲关系,从而使数据具有可比性。数据标准化、规范化是实现信息集成和共享的前提,在此基础上才能达到信息的准确、完整和及时,没有数据标准化,信息共享就无从谈起,没有信息共享则没有普适化的可以应用到任何教育系统的工具。因此,数据的标准化和预处理任务是必需的。

3 开发易于使用的EDM工具

数据挖掘结合人工智能、统计学和数据库技术等多个学科的思想,数据挖掘技术是一种面向应用的复杂技术,应用难度很大。很多数据挖掘工具封装了挖掘算法、可视化技术等,例如应用于商业领域的DBMiner、Clementine、Intelligent Miner等,然而这些工具不是专门为教育领域而设计,对很多教育工作者来说设计的过于复杂,不易于使用,在挖掘方法和数据标准化的基础上,针对教育领域的特点,开发一些专门的EDM、统计和可视化工具,设计更加直观和易于使用的接口,以帮助教育工作者对于不同层次的教学过程进行分析。

4 特定的EDM技巧研究

这一领域的研究者群体中很大一部分是计算机专家,他们缺乏教育和心理学理论,即使通过数据挖掘能够获知学习者的行为,但是不能解释学习者产生这种行为的原因,提不出合理的预测和解决方案。教育领域有其自身的特点,某些具体对象的属性难以用数量方法描述,信息具有隐含性和模糊性,网络教学信息数量大,包括教师教的信息、学生学的信息及交互信息,这些信息很难进行挖掘。数据挖掘在教育系统中的应用,需要考虑教育情境做相应的调整,结合特定的整合教育领域知识的数据挖掘技巧,可以借助教育测评技术、教学理论和教育心理学理论等寻求突破口,在有效且易于使用的数据挖掘工具支持下,将特定的DEM技巧整合到网络学习环境中,使得所有的数据挖掘任务都能成为一个应用,所获得的反馈和结果能够直接被应用到网络学习环境,更好地为教育教学服务。

参考文献

[1]顾小青,李雪.信息化科学研究及其教育应用综述[J].开放教育研究,2008,(8):17-21.

[2]Jiawei Han,Micheline Kamber著.范明,孟小峰译.数据挖掘概念与技术[M].北京:机械工业出版社,2001

[3] Educational Date Mining[DB/OL].

[4]庞先伟.基于数据挖掘技术的资源型学习[J].现代远程教育研究,2002,(3):39-42.

[5]Ha,Bae,Park.Web Mining for Distane Edueation [J].IEEE,2002, (2).

[6]孙玉荣,罗立宇,黄慧华.数据挖掘在网络教学中的应用[J].现代教育技术,2009,(6):104-106.

[7]丁卫平,王杰华,管致锦.基于数据挖掘技术的教学评估智能辅助决策平台的设计与实现[J].电化教育研究,2009, (4):90-105

[8] Zaiane,O.Web Usage Mining for a Better Web-based Learning Environment[C].Proceedings of conference on advanced technology for education, Banff, Alberta,2001:6064.

[9] Romero & Ventura. Educational Data Mining:A Survey from 1995 to 2005[J]. Expert Systems with Applications.2007,(33):125-146.

[10]蒋玉兰,周磊.关于开放教育学生流失情况的调研报告[J].宁波广播电视大学学报,2006,(3):50-56.

[11]黄茜.WEB日志挖掘在个性化网络教育中的应用[J].现代教育技术,2004,(5):52-55.

[12]王巧玲.基于Web服务的网络学习行为采集与集成初步设计与实现[D].武汉:华中师范大学,2007.

[13]吕莉,张屹.基于Web服务的网络学习行为采集研究现状[J].开放教育研究,2009,(6):99-104.

[14]黄勇,李玉华.面向知识发现的数据分类技术在网络教学中

的应用研究[J].南华大学学报,2006,(6):32-35.

[15]Ueno,M. Online Outlier Detection System for Learning Time Data in E-learning and Its Evaluation[C].International conference on computers and advanced technology in education.2004:248253.

[16]Dringus & Ellis.Using Data Mining as a Strategy for Assessing Asynchronous Discussion Forums[J].Computer & Education Journal,2005,(45):141160.

[17]Baker & Yacef,The State of Educational Data Mining in 2009:A Review and Future Visions[EB/OL].

[18]陶剑文,黄崇本.Web Usage Mining在网络教学中的应用研究[J].情报杂志,2006,(5):73-77.

[19]曹梅.知识发现在网络教学系统中的应用研究进展[J].开放教育研究,2008,(12):89-93.

数据挖掘技术分析论文范文第4篇

【关键词】数据挖掘;体育科学研究;体育统计

引言

近年来,数据挖掘技术已成为计算机领域的研究热点,随着信息化技术在体育运动中的广泛运用,逐步收集了大量关于运动员成长和选材、训练和比赛等方面的真实有效数据,通过对数据进行整理和分析可得到隐藏的知识和规则,为服务于体育各领域的研究、运动员取得更好的成绩以及体育管理部门的决策和管理提供了有益帮助。

体育科学中拥有大量训练、教学和竞赛中的数据信息资源与体育统计,如何利用这些有效数据,发现潜在的可以利用的规律,是体育科学利用计算机技术亟须解决的问题之一,现有的数据挖掘技术能为此提供帮助,它是指从大型数据集中,挖掘隐含在其中的、人们事先不知道的、对决策有用的知识的过程,利用数据挖掘技术,在体育教学、体育训练和体育竞赛中可以提升其训练与服务水平,更好地满足各级各类体育科研工作者的需求。然而由于基础数据资料填报不够完善或准确,数据自身具有不确定性,数据仓库建模规模过于复杂,挖掘算法设计缺陷等原因,造成了挖掘结果失真,不能让教练员和管理人员完全信服,无法在实际的各环节中起到指导作用。

本文查阅近十年来关于体育数据挖掘方面的相关文献资料,从文献计量角度分析该领域的研究内容、存在问题、研究热点,分析数据挖掘技术在各个领域的研究现状,对数据挖掘技术的广泛应用情况进行客观的认识,促使相关部门利用这项技术发现数据中隐含的、有价值的规律,本文运用体育统计的研究方法,对当前数据技术研究的热点、技术瓶颈、研究领域和存在的问题进行分析。科学规范地对这些信息资源进行整合和集成,实现教育信息化、决策科学化和管理规范化。

1数据挖掘的定义

数据挖掘起源于从数据库中发现知识,它首次出现在1989年8月在底特律举行的第十一届国际联合人工智能学术会议上。在1996年出版的总结该领域进展的权威论文集《知识发现与数据进展》中,Fayyd、Piatetsky-Shapiro和smyth给出了知识发现和数据挖掘的最新定义,将二者加以区分〔1〕。

数据挖掘(Data Mining)的定义为:数据挖掘是知识发现中通过特定的算法在可接受的计算效率限制内生成特定模式的一个步骤。数据挖掘技术在技术上又有着这样的定义:从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的,但又是潜在有用的信息和知识的过程〔2〕。

数据挖掘是通过分析每个数据,从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示3个步骤。数据挖掘的任务有关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等。

数据挖掘的步骤会随不同领域的应用而有所变化,每一种数据挖掘技术也会有各自的特性和使用步骤,针对不同问题和需求所制定的数据挖掘过程也会存在差异。此外,数据的完整程度、专业人员支持的程度等都会对建立数据挖掘过程有所影响。这些因素造成了数据挖掘在各不同领域中的运用、规划,以及流程的差异性,即使同一产业,也会因为分析技术和专业知识的涉入程度不同而不同,因此对于数据挖掘过程的系统化、标准化就显得格外重要。如此一来,不仅可以较容易地跨领域应用,也可以结合不同的专业知识,发挥数据挖掘的真正精神。

2研究对象与方法

2.1研究对象

以体育相关领域数据挖掘的研究文献资料为研究对象。

2.2研究方法

本研究通过中国知网、维普数据库和万方数据库等平台,分别以数据挖掘和体育相关运动项目或比赛对1998-2014年的文献资料进行检索,以“数据挖掘”为关键词,并以“体育”为主题检索词进行检索,经筛选后得到96篇该主题相关文献,其士论文3篇,硕士论文17篇,核心期刊29篇,一般刊物及会议47篇。运用体育统计的研究方法,对相关文献进行分类和整理,进行定量综合的研究方法,目的是试图确定研究变量间关系的“真实”值。

研究的重点是对收集到的文章做特征编码,包括以下变量论文领域、期刊级别、发表时间、学历职称、研究方向、备注。

3数据检索分析

3.1年度数量分布统计

从论文年代数量分布表分析,该研究领域的发展可分为两个阶段(如表1):(1)起始阶段(1998-2003年),发文6篇,占文献总量的6.25%,虽然该阶段的研究成果不是很大,但是随着计算机领域数据挖掘技术的运用,也促进了体育科学领域对数据挖掘的关注。(2)快速发展阶段(2004-2014年),随着数据挖掘理论的成熟和体育科学领域研究的深入,特别是计算机和体育交叉学科应用范围越来越广,体育科学研究领域掀起数据挖掘研究热潮,特别是近五年关于体育数据挖掘的研究成果明显增多。

田野在中国体育科学发展现状与展望中第一次为体育科学的发展指明了方向,文章提到建立中国体育科学数据平台,这也为数据挖掘技术在体育科学研究领域更好地应用提供了前提保障〔3〕。

3.2论文来源分布统计

检索论文中,学术期刊类论文共67篇,分布在51种期刊上,从期刊的分布来看,核心期刊有29篇,说明国内在本交叉学科领域研究的一般为高端学者,利用数据挖掘技术对体育科学的研究具有一定的提升意义。根据统计,本主题研究人数为136人,说明该领域还没有形成有力的研究群体。

3.3文章主题分布统计

把搜集到的96篇文献资料进行统计分析,从统计的文献资料情况来看,研究的侧重点主要在体育管理、比赛应用、训练应用、体育教学、研究综述以及其他相关研究(数据分布见表2)。

从以往的研究来看,研究的重点主要是体育管理、训练应用和其他方面,主要集中在数据挖掘技术在体育系统的开发或理论研究上,而关于比赛的研究还相对比较薄弱,关于体育教学的研究就更少〔4〕。

从以上的数据情况来看,这可能跟数据挖掘技术中数据库建立不足密切相关。体育管理、体育训练近些年来积累了一定数量有效的数据,可以通过数据挖掘技术分析得到相关的参考数据,为体育相关领域的决策和管理提供参考。然而,体育比赛和教学方面的数据也都是很直接,但是数据挖掘技术在这方面的应用则较少,可能是在数据搜集和评价标准上还有待统一〔5〕。我们发现还有一部分研究主要侧重于数据挖掘技术与体育相关系统的研制,可以看出这方面的数据挖掘在体育领域已经得到重视,但是研究的成果如何开发和应用应得到研究者的重视。

4归类现状分析

4.1体育管理的相关研究

数据挖掘技术能够为领导科学决策提供强有力的保障。探讨数据挖掘技术对体育管理系统中锻炼者、场地设施、锻炼效果和心理体验等方面的调查数据发现体育利用及需求的规律和模式,辅助体育管理部门决策。钱强、李英〔6〕用关联规则数据挖掘技术在体育领域的相关研究文献进行挖掘,分析数据挖掘技术运用的特征,找出其规律,为数据挖掘技术在体育领域更好地利用提出建议。刘丽等〔7〕认为利用数据挖掘技术,建立了一个统一的体育考试成绩科学化管理框架,扩展了考试管理模块的管理能力,加强了考试管理模块的辅助决策能力。

近些年,体育管理部门对国民体质的监控和监测相当重视,特别是2008年北京奥运会后,体育管理部门逐渐认识到提高全民体育素质才是体育管理工作的关键,因此每年都有很多相关的体质测试。测试的数据可横向和纵向对比参考,基本能代表我国各个民族、各个地区和各种人群的总体特征,并且可以使决策管理部门真实掌握国民体质和健康状况,进而不断改善和增强国民体质,是体育强国战略的一项重要任务。体质数据的分析为体育管理部门正确决策和管理提供一定的帮助,但是我们从研究的内容来看,其作用也只能局限于数据本身的大小比较。在实际操作过程中很多人认为很难得到有效的操作,如乔克满〔8〕等在《关联规则挖掘技术在体质指标分析中的应用研究》中认为,挖掘技术无法实现对结果的最终解析,永远不会替代有经验的体育科研人员所起的作用,它只是更科学、更容易地根据纯数据间的关系挖掘出一定模式的一种工具。

4.2比赛应用的相关研究

关于数据挖掘技术在比赛应用的研究主要从比赛现场统计的真实的、大量的、不完全的、随机的数据中,提取出隐含在其中的、有价值的,对改进战术有帮助的信息,找出比赛过程中制胜或失利的关键因素,这种挖掘方法的应用可使第一时间获得准确的信息,提高比赛过程控制的可靠性和灵敏度。如赵会群〔9〕等的《数据挖掘技术在体育比赛技战术分析中的应用研究》是基于马尔科夫模型系统关键因素分析方法,通过状态转移概率和状态可靠性灵敏度分析两种途径,对乒乓球比赛制胜关键因素进行分析,把乒乓球比赛中的常见技战术进行分类和编码,运用技术手段从而使得技战术采集更加快速,为进一步挖掘关键因素奠定了基础。

如唐艺在研究中提到,数据挖掘是利用数据模型建模,通过在比赛现场输入现场数据参数后,体育比赛现场决策支持系统能够对这些数据进行分析对比,计算出各种情况出现的概率并筛选最优的换人名单、最佳的战术组合等数据。这一结果也显示出数据挖掘技术的功能,通过挖掘无规律、极为复杂的原始数据进行合理的分析整理,从而为比赛过程控制提供有效的帮助。

4.3训练应用的相关研究

运动员的训练过程日益受到广大体育科研工作者的重视,训练的形式、强度、频率呈现出精细化控制,一些世界高水平运动员的训练过程一直处于封闭状态,传统的训练手段和方法很难满足高水平运动员的需求。那么在训练中引进数据挖掘技术成为教练员和科研人员通过建立训练数据的分析模型,来发现不同个体、不同肌群、不同用力方式之间的细微差异,并把这些差异进行科学分析,从而总结出训练的规律。正如黄谦等在论文中从实例入手,通过使用神经网络对运动成绩的预测,可以挖掘出运动成绩或训练状态跟训练指标之间的关系。

4.4体育教学的相关研究

体育教学中引入数据挖掘技术的相关研究还不多,这可能与体育教学的对象和重视程度有一定关系。体育教学中主要是以学生的体育测试成绩和上课质量数据库,统计出学生身体素质发展的规律和体育学习兴趣等方面的问题,从而有助于体育教师改进教学方法,掌握学生身体素质的基本规律。目前,在体育教学中运用比较多的是运动处方的制定,由于学生群体较大,身体素质发展存在很大的差异性,所以根据学生的不同个体特点制定运动处方是体育教学中学生身体素质发展的良好手段,如何把这些庞大的数据制订出个性化的方案,数据挖掘技术可以根据每个学生的各项指标预测体育锻炼成绩的好坏,以此为依据建立起学生的运动处方。

4.5体育比赛预测

当前,随着社会上行业的发展,一些体育和娱乐赛事预测比赛结果的行为不断泛滥,我们暂且不论这种行业是否违法,至少这个行业的确带动了体育相关产业的发展,更重要的是带动数据挖掘技术在体育数据分析领域的发展。正如余金山〔10〕在其研究中提到,比赛预测的主要目的和作用包括两大方面:验证和发现对成绩有意义的影响因素;对赛事的结果进行预测。比赛预测不同于比赛现场数据挖掘技术,因为他们所利用的数据库是完全不同的,比赛预测也就是在比赛之前,利用以往的比赛或训练数据作为基础,从而判断获胜的概率,能解决参赛群体的多样性、多变性、影响因素的复杂性和预测的困难性等问题。

该技术已经在等体育产业领域广泛应用,但是其预测的准确性和稳定性很难得到控制,仅能作为一种参考。

5存在问题

5.1研究缺乏深度与广度

5.1.1理论研究不足

目前数据挖掘理论相对来讲还比较抽象,特别是体育领域缺乏一些计算机专业人才,从而导致该领域的研究不够深入。通过纵向对比,我们发现其他学科领域数据挖掘技术的研究相对较多,这得益于他们对数据挖掘应用原理与技术的研究相对比较深入。黄谦和石勇在数据挖掘在体育训练指导中的应用研究中,使用神经网络预测运动员训练成绩,并很逼近地预测运动员真实成绩。但是由于数据挖掘需要大量的样本数据,这样就导致测试可能有一定的噪音,因此往往导致预测结果有一定的失真,其准确性和可靠性也受到一定影响。因此在体育训练和比赛中仅仅作为一种参考。国内虽有很多学者已投入该领域研究中,但至今未出现有影响力的挖掘模型,同时成果的数量与内容都反映出对体育数据挖掘的理解还停留在较浅层面。

5.1.2应用研究缺乏针对性

目前国内该领域研究文献基本停留在将数据挖掘方法搬过来应用,在体育领域,通常可以利用相关分析和主成分分析确定与运动成绩相关的指标,然后利用回归分析建立运动成绩和这些指标之间的回归方程。目前,多元统计分析的技术在训练数据的分析中使用比较普遍〔11〕,其他应用挖掘方法则比较少见。研究没有针对实际需求进行深入分析与研究,方法原理与应用上缺乏创新。笔者认为只有通过搜集一线运动队的实际有效数据,建立庞大的数据库,根据有利条件来确定数据挖掘的方向和测试方法,从而创造性、灵活性地运用数据挖掘,为运动员的成长成才服务,为全面提高体育素质服务。

5.2结果有效性与确定性

数据挖掘处理对象是海量样本,而且数据搜集、归类、整理、分析是一系列繁琐的过程,一旦一个环节出现错误将会影响预测效果,并且数据挖掘必须建立在海量样本的基础之上,只有提高数据分析量,才能提高结果的有效性与科学性。我们从大部分研究论文中发现,实际分析案例数据量小,且有些还是模拟数据,并非真实数据对小样本数据,寻找的规律或结果可能不具有统计显著意义,不能反映体育变化规律或结果的有效性。

5.3 研究的手段和方法缺乏灵活性

目前数据挖掘技术在体育领域的运用还基本是依靠计算机领域的传统研究方法和手段,当研究者需要哪一部分数据和参考值,就会临时搜集部分数据库,根本不对数据库的信息进行有效分析,有些甚至不懂得哪些是重要因子,哪些数据具有对参考值比较高的响应率等,数据挖掘的方法和手段只是模仿和照搬。但事实上数据挖掘技术,是依靠多方面的数据资料库,来分析体育领域存在的问题和优势,进一步推进体育领域与计算机领域的交叉和融合,有利于产生更合理、更科学的研究手段和方法,对促进数据挖掘技术、体育技能的发展和普及具有重要意义。

6小结

祝玮东在《当代体育研究中数据挖掘技术的应用》中认为,当今计算机的计算能力正日益提高,各领域业务复杂性也不断提升,数据的类型越来越多、越来越复杂。数据挖掘的服务内容是为体育科研人员提供有效的数据,如何提高服务质量,如何将有价值的知识资源提供给有需求的用户是我们研究的出发点。

我国体育领域积累并不断扩充着大量的数据,我们的体育科研人员要充分重视这些数据的整理,建立有效的数据仓库和数据集,并运用数据挖掘进行分析,创造新的价值,这是体育科研人员今后运用数据挖掘技术的重要任务。

参考文献

〔1〕〔3〕田野,等.中国体育科学发展现状与展望〔J〕.体育科学,2005,25(1):5-10.

〔2〕赵新辉,郭瑞.基于数据挖掘技术的网络舆情智能监测与引导平台设计研究〔J〕.电脑知识与技术,2012,8(1):1-4.

〔4〕祝玮东.当代体育研究中数据挖掘技术的应用

〔J〕.南京体育学院学报(自然科学版),2010,9(1):132-134.

〔5〕〔11〕黄谦,石勇.数据挖掘在体育训练指导中的应用研究〔J〕.广州体育学院,2009,29(6):106-110.

〔6〕钱强,李英.数据挖掘技术在图书馆读者分析中的应用〔J〕.图书情报工作,2009.6:121-124

〔7〕刘丽.基于数据挖掘的体育考试成绩科学化管理〔J〕.时代教育,2009,5:97-98.

〔8〕乔克满,欧阳为民,等.关联规则挖掘技术在体质指标分析中的应用研究〔J〕.天津体育学院学报,2010,25(5):453-455.

〔9〕赵会群,孙晶,等.数据挖掘技术在体育比赛技战术分析中的应用研究〔J〕.北京体育大学学报,2008,31(5):712-715.

数据挖掘技术分析论文范文第5篇

近年来,随着互联网的快速发展,多媒体数据挖掘技术也越来越受到人们的重视。随着研究的深入及应用范围的快速扩大,多媒体数据挖掘技术所关注的焦点也发生了不小的变化:除了传统的对多媒体搜索算法的一系列优化外,新的研究方向还包括对社交网络数据、移动设备数据的获取与处理,以及利用传感器对环境和位置信息数据的感知等。一方面,如此丰富的海量数据使得该领域的研究具有巨大的潜力和价值;而另一方面,如此多的数据也使得用户的隐私信息面临着巨大的风险。本书在以多媒体数据挖掘为主题的国际学术会议“知识发现与数据挖掘会议”(SIGKDD,SIG Knowledge Discovery and Data Mining)SIGKDD的前身是KDD(Knowledge Discovery and Data Mining),首先由PiatetskySharpiro正式提出;1995年国际KDD组委把专题讨论会更名为国际会议,并在加拿大召开了第1届KDD国际学术会议,以后每年召开一次。1998年,ACM成立了SIG特殊兴趣小组SIGKDD。近三年会议论文的基础上编纂而成,反映了近些年来国际上在该领域的主要进展。

本书共选编了19篇论文,著者主要来自北美、日本、中国以及西欧、墨西哥等地。所有论文按主题划分为5部分。第1部分:综述,含1篇论文,介绍了多媒体数据处理的发展历史与现状。第2部分:社交媒体与移动技术的探索及应用,含6篇论文,研究了对社交多媒体的情感分析以及意见挖掘理论、基于图理论的热门话题实时获取、多媒体系统的位置感知、基于内容的多媒体隐私保护等。第3部分:生物统计学中的多媒体数据处理,含2篇论文,一篇研究了大规模生物统计数据库分析方面的最新研究成果,另一篇则关注如何在自然语言的听写中实现对人口特征(如:年龄、性别、性格等)的统计与识别。第4部分:多媒体数据建模、搜索与评估,含6篇论文,分别研究了互联网图像内容的获取与评价、电子商务中基于内容的图像搜索、Dempster-Shafer理论中基于不确定概念检测的视频检索、视频中基于概念检测的多峰融合以及对视频的特征挖掘等问题。第5部分:多媒体数据表示、处理以及可视化算法,含4篇论文,从不同方向分别展示了多媒体数据处理中的关键算法,包括:对高维数据的降维、快速K均值集群算法、大规模高维数据中最近邻搜索算法以及数据可视化等。

本书可供数据挖掘、机器学习、应用数学和其他有关领域的科研人员阅读,亦可作为相关方向研究生的自学教材。

数据挖掘技术分析论文范文第6篇

关键词:商务智能;知识管理;数据仓库;数据挖掘

商务智能(BusinessIntelligence,简称BI)的概念最早是GartnerGroup的HowardDresner于1996年提出来的,我国学者将之翻译为“商业智能”或“商务智能”,本文选用“商务智能”作为BusinessIntelligence的中文翻译。近年来,商务智能技术日趋成熟,越来越多的企业决策者意识到需要商务智能来保持和提升企业竞争力。在美国,500强企业里面已经有90%以上的企业利用企业管理和商务智能软件帮助管理者做出决策。国外己经有很多成功实施商务智能的案例。我国的商务智能处于导入期,商务智能应用的程度和实际效果都与国外企业有很大差距。近年来,国内外商务智能供应商和高等院校都开展了广泛的商务智能的基础研究和应用研究。本文主要基于国家图书馆的多库目录检索系统、清华同方全文数据库检索系统等,对国内商务智能的研究现状进行了分析和总结。

一、文献统计分析

1.论著统计分析。为了对近年来国内商务智能论著情况有一个比较全面的了解,笔者分别以“商务智能”和“商业智能”(他们指的都是BusinessIntelligence,BI)为检索题,通过对国家图书馆的多库目录检索系统进行题名检索,得到近年来相关论著及博硕论文分布情况:国内商务智能专著只有2004年的两本,译著在2003年~2005年间有三本。相对于最早1988年出版、截止2005年已经出版23本的西文专著(含一本日文专著)要少得多。国外2001年~2004年间出版的商务智能专著数量极多,说明经过一段时间的发展,国外商务智能的基础研究和应用研究都比较成熟。而我国从2002年起仅有少量的博士论文,关于商务智能的专著也屈指可数,我国商务智能仅处于导入期,对商务智能的系统研究还有大量工作要做。

2.论文统计分析。

(1)数量分布统计分析。笔者利用清华同方中国期刊全文数据库检索系统(Web),分别以“商业智能”、“商务智能”为检索题进行篇名检索,得到221篇文章(论文、简讯等),通过内容分析,除去内容重复的和明显不符合我们主题的文章,得到以下统计结果(见表1)。

从检索结果来看,1996年的两篇简讯可以说是国内较早关于商务智能的文章。中国学术期刊全文数据库在1996年~2005年期间,收录了有关“商务智能”和“商业智能”的论文一共200篇,文章数量年代分布呈现前几年缓慢增长,近几年明显递增的特征。因此可以将国内商务智能发展规划为两个阶段:①初始阶段(1996年~2001年):这个阶段国内商务智能初露端倪,这段时间相关文章很少,有36篇,约占总数18%,说明商务智能在当时属新事务,没有得到应有的重视,这段时期的文章多是关于商务智能软件和国外商务智能研究的简单介绍和综述。②明显增长阶段(2002年~2005年):这阶段论文有显著增长。不少论文讨论商务智能在各行业和各领域的应用,但是关于商务智能的较高水平和较深层次的学术研究论文还极少,大部分文章仍是简单的、重复的功能介绍、综述和简讯等。这与目前我国企业信息化程度普遍不高、缺乏大量数据积累、缺乏应用商务智能的实践有关。

(2)主题分布统计。笔者查阅大量的相关论文资料,对当前商务智能的研究主题进行划分并加以调整,将商务智能的研究内容划分为基础研究和应用层面两大类,其中基础研究包括商务智能定义、功能(任务)、技术、综述等,关于商务智能的一般应用研究等无法归于应用层面所分细类的文章也放在这一部分;应用层面分为:①商务智能软件方面的简讯和功能介绍;②商务智能的行业应用,如金融、电信等;③商务智能应用的范畴,如客户关系管理、电子政务等。按以上主题通过对中国学术期刊全文数据库按题名检索的结果进行分类,统计表明,国内学者对商务智能基础工作研究较少,共75篇,占总数的37.5%,其中还包括无法归类于商务智能软件和具体应用的一般应用讨论的文章。这里分别以“商务智能”、“商业智能”为题名检索到商务智能技术方面的论文极少,但如果以“数据挖掘”、“数据仓库”、“OLAP”分别进行题名检索,会得到成百上千篇论文。作为商务智能的支撑技术,数据挖掘、数据仓库、OLAP的发展是推动商务智能发展的技术基础。商务智能支撑技术研究的逐渐深入和成熟,为商务智能的功能、体系结构、应用研究等提供了良好的技术基础。

近几年我国关于数据挖掘、数据仓库、OLAP的研究论文数量激增,基础研究关系到商务智能的应用能否顺利进行,这其中商务智能的支撑技术(数据挖掘、数据仓库、OLAP)是研究的重点之一。

总的来说,我国关于商务智能基础研究的论文数量极少,部分论文的质量不高,只是肤浅的介绍式论述,论文内容不新颖,重复性较高,算得上是严格意义上的学术论文数量更是屈指可数,尤其缺乏高质量的、深入的关于功能、体系结构、方法等方面的论文。当然这也与商务智能本身的特点有关,确切地讲,商务智能并不是一项新技术,它将数据仓库(DW)、联机分析处理(OLAP)、数据挖掘(DM)等技术与客户关系管理(CRM)、ERP等系统结合起来应用于商业活动实际过程当中,实现了技术服务于决策的目的。

商务智能应用研究的文章数量相对较多,共125篇,占总量的62.5%,这部分文章中41篇(32.8%)是关于商务智能软件的简讯,其余84篇(67.2%)是关于商务智能在各行业和各领域应用的论文和介绍性文章。这部分关于具体应用的文章也存在讨论不够深入、内容比较简单、有重复的现象。论文数量2002年开始增长较多,电信、金融等信息化程度高的行业应用商务智能较多,客户关系管理、竞争与决策、信息化和ERP等领域是商务智能应用的热点。

二、国内商务智能理论研究现状

从以上分析来看,我国商务智能的研究还处于导入期。像员巧云那样,笔者也把商务智能的理论研究分为宏观研究和微观研究两方面,其中宏观研究主要是从总体上把握,如商务智能的必要性、内涵和理论综述等;微观研究主要包括:商务智能功能、技术、体系结构等。

1.宏观研究和微观研究两方面。

(1)商务智能的含义。①GartnerGroup将商务智能定义为一类由数据仓库(或数据集市)、查询报表、数据分析、数据挖掘、数据备份和恢复等部分组成的、以帮助企业决策为目的的技术及其应用。②IBM认为商务智能是一系列由系统和技术支持的以简化信息收集、分析的策略的集合,它应该包括企业需要收集什么信息、谁需要去访问这些数据、如何把原始数据转化为最终导致战略性决策的智能、客户服务和供应链管理。③简言之,BI=DB(数据库)+DW(数据仓库)+OLAP(在线分析处理)+DM(数据挖掘),是多种技术的集合,是人工智能技术的最新方法。现如今,商务智能的概念已经不仅仅是软件产品和工具,而是整体应用的解决方案,甚至升华成为一种管理思想,体现的是一种理性的经营管理决策的能力,即全面、准确、及时、深入地分析和处理数据与信息的能力。

(2)商务智能与知识管理的区别与联系。商务智能和知识管理最重要的类似处是它们最终都处理知识,知识管理中的知识明显的总是直接来自人,商务智能中的知识源自数据,它是经过分析产生的知识;商务智能和知识管理都受企业文化和人的影响;商务智能看重的分析数据的技术和知识管理中管理和分发知识的技术很不同,然而,他们在内容获取和显示方面都共有终端技术。

2.微观研究方面。

(1)商务智能的功能。商务智能系统的仪表盘可以剪裁环境以满足用户的特殊需要;用户可以定制主页来展示最关键的图表和报告,并且当商业需求变化时可以改变显示的图表;能基于底层(underlying)数据源的更新自动更新图表;可以根据特定参数或特定条件的变化进行预警;有例外管理能力;仪表盘的资源组件使资源材料与特定的使能过程一致;提供团队协同工作环境等。

(2)商务智能的支撑技术数据仓库、数据挖掘、OLAP。①数据仓库技术。数据仓库是一个面向主题的、集成的、稳定的及包含历史数据的数据集合,它用于支持经营管理中的决策制定过程。商务智能系统的核心是解决商业问题,它把数据处理技术与商务规则相结合,以提高商业利润减少市场运营风险,是数据仓库技术、决策支持技术和商业运营规则的结合。②数据挖掘技术。数据挖掘(DataMining)是从大量的、不完全的、有噪声的、模糊的及随机的实际应用数据中,挖掘出隐含的、先前未知的、对决策有潜在价值的知识和规则的过程。③联机分析处理技术(OLAP)。OLAP是一种多维分析工具,目标是满足决策支持或多维环境下特定的查询和报表需求,使分析人员、管理人员或执行人员能够从多个角度对从原始数据中转化出来的、能够真正为用户所理解的并真实反应企业维特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解。

三、国内商务智能应用研究

1.商务智能的应用行业。商务智能的应用领域非常广泛,典型的有电信、银行、保险、医疗、零售、政府等,以及所有建立了数据仓库的用户。从商务智能应用的论文内容来看,我国的商务智能应用还处于起步阶段,仅在信息化程度偏高的电信、银行、保险、医疗等有少量应用。这一方面因为商务智能是建立在数据仓库基础上的,我国大部分企业的信息化程度偏低,缺乏数据的积累,而数据的积累需要一个较长期的过程。另一方面因为对商务智能的认知度不高,缺乏商务智能方面的人才以及对这些人才的有效管理。

商务智能的应用与行业内信息化的基础状况密切相关,实施商务智能的企业中,以电信、金融行业的使用率较高。刘艳丽认为商务智能能带来较大价值的企业中,以制造型企业最多,超过50%;其次是零售业,为41.2%;而政府机构对商务智能产品或技术的使用价值低于其他软件产品。以目前制造型企业和零售业的低使用率和高预期值来比较,这两个领域将是商务智能不可忽视的新市场。

2.商务智能在客户关系管理(CRM)、信息化与ERP、竞争与决策中的应用。统计分析显示商(下转第112页)务智能在客户关系管理、信息化、竞争与决策等方面的研究论文相对较多。著名的商务智能公司BusinessObject公司的专家PaulClark在分析商务智能与CRM的关系时认为:客户知识是CRM重要的核心组成部分,而商务智能是CRM的智慧所在,客户知识的获取与保存依赖于商务智能,商务智能是整个CRM的基础。

商务智能是架构在ERP之上的,而决策支持是在商务智能基础上的再扩展。从基础架构的角度上看,商务智能数据库和ERP有许多共通之处。但商务智能和ERP绝对不是同一事物或是同一事物体的两个方面,它们是互补的系统。它们最大的共性就是,它们使企业运行得更有效率、响应更及时并易于整合。

商务智能建设的主要目标是企业决策支持。商务智能通过信息技术的运用在不同层面为战略决策提供新的支持:提升决策者洞察力;支持信息获取与分析。

商务智能系统可以从以下方面帮助企业获取更大的竞争优势:显著提升企业决策水平;识别优质客户,改善企业与客户关系;降低企业经营成本;创新业务模式。

3.商务智能系统、软件工具。目前市场上的商务智能厂商一般分为三大类:一类专门做商务智能软件的厂商如BusinessObject、Brio、Cognos;第二类是继承性的数据库厂商和统计软件厂商,这类公司包括NCR、Microsoft、CA、Oracle、Sybase、IBM、SAS等;第三类是一些管理软件厂商,如SAP、博科、用友、金蝶等公司。

不同的人对商务智能的理解仍然不同。数据库服务商(如Oracle、IBM、Sybase)往往认为数据仓库是商务智能的核心,数据展示服务商(如Hyperion、BO、Cognos)则认为商务智能就是联机分析(OLAP),而数据分析服务商(如SAS、SPSS)一般认为数据挖掘才是商务智能的核心。

四、商务智能研究热点及发展趋势

1.商务智能的研究热点。从商务智能的研究成果分析来看,当前商务智能的研究热点主要有:(1)集成的商务智能体系研究;(2)商务智能的预测功能;(3)商务智能网络的研究;(4)决策支持工具的研究;(5)企业建模方法研究;(6)信息的收集与获取研究。

2.商务智能的主要发展趋势。通过对已检索文章分析,商务智能将呈以下发展趋势:(1)应用领域的探索和扩张;(2)应用行业将更广泛,制造业、零售业将是商务智能应用的热点;(3)与领域、行业知识的结合;(4)实时商务智能系统的研究和应用;(5)不同领域的理论、技术的融合;(6)商务智能系统可视化、交互性;(7)从单独的商业智能向嵌入式商业智能发展。

参考文献:

1.员巧云,程刚.近年来我国数据挖掘研究综述.情报学报,2005,(4):250-256.

2.王卫平,徐宏发等.基于WebServices的商务智能网络研究.计算机系统应用,2005,(7):16-19.

3.刘庆.BI观点.http://happysboy.Bokee.com/

inc/ttnn_bi_opinion_200511.pdf,2005-12-19.

4.CharlesP.Seeley,ThomasH.Davenport.KMMEETSBUSINESSINTELLIGENCE:MergingknowledgeandinformationatIntel.KMREVIEW,2006(2):10-15.

5.刘业政,胡剑.商业智能的核心技术及体系结构研究.合肥工业大学学报(自然科学版),2004,(8):882-885.

6.黄晖.中国式商务智能五人谈.上海信息化,2005,(3):26-31.

7.刘艳丽.商业智能驶上快行道了吗.科技智囊,2004,(8):88-89.

数据挖掘技术分析论文范文第7篇

关键词:医学院校;目标驱动;课程设计;毕业论文

中图分类号:G642.0 文献标志码:A 文章编号:1674-9324(2012)12-0218-02

一、背景

“数据仓库与数据挖掘”是国内外高等院校一门重要的课程,是国家基础教育较为重视的一门学科,受到不同专业学生的喜爱。其教学目标是提高学生的数据分析水平和能力,除了教授学生数据分析的常见方法之外,还将引导学生如何对实际的问题进行建模,如何对模型进行简化和求解。利用实例教学等方法,可以很好地将数据挖掘中的抽象概念、模型、公式等阐述清楚,让学生易于理解和接受。近年来,数据挖掘技术在医学领域中的应用越来越广泛。在疾病诊断、治疗、器官移植、基因研究、图像分析、康复、药物开发、科学研究等方面都获得了可喜的成果。运用各种数据挖掘技术了解各种疾病之间的相互关系、各种疾病的发展规律,总结各种治疗方案的治疗效果,以及对疾病的诊断、治疗和医学研究都是非常有价值的。因此,我们学院也把这门课程作为计算机专业及信息管理与信息系统专业的必修课。把计算机与医学结合,使得学生的培养方案全面包括了计算机与医学的知识点。由于该课程原本属于研究生阶段开设的专业课程,教材也大多侧重于介绍体系结构、算法原理、效率分析与改进等理论知识,其中所涉及的内容大多比较深,许多知识都超出了本科生的接受范围,此外,教材对相关理论在实际应用方面的说明也比较少,不利于安排实验教学。因此要实现“数据仓库与数据挖掘”课程的教学目标,必须在理论教学和实验教学环节综合考虑学时多少、教学条件以及学生的接受情况等因素,灵活地加以选择安排。

二、存在的问题

主要包括以下几方面:①课堂上以教师讲、学生听的教学形式为主,学生学习处于被动状态,他们的创造性因此被严重扼杀;②教师对专业课程体系和学生的知识体系不够重视,对课程体系的讲解不到位,造成学生在学习时课程之间联系不上,知识衔接不好,对知识的运用和融会贯通比较差;③实验与理论脱节。“数据仓库与数据挖掘”课程理论讲授的算法与实验软件中的算法有很大差距,使得学生难以理解。比如对于理论上讲授的关联规则算法,实验中使用SQL SERVER 2005中的商务智能工具做实验,学生发现有很多参数与理论上讲授的有很大不同;④医学院校的学生对纯粹计算机理论知识接受困难。由于该门课程是交叉学科,涉及计算机、数学、统计学等知识,如果学生的其他学科学得不好,就会对该课程的学习产生障碍;⑤教师讲授没有把理论课程结合到实际应用中。有很多学生不知道学习这门课的意义,老师没有很好引导学生,激活他们的学习热情。

三、目标驱动的教学框架

对于以上问题,本文提出了一个新的教学体系,设计了一套基于目标驱动的教学框架,把教师与学生紧密联系起来,从教学大纲的设置,教材的选择,理论教学,实验教学,课程设计及毕业论文,全面引导学生从初步了解到深入学习的过程。对于我们学校的实际情况,有两个专业的学生要学习这门课程。一个是计算机科学与技术专业,一个是信息管理与信息系统专业。对于两个不同的专业,我们设置不同的教学大纲。比如对于计算机专业的学生,数据仓库和数据挖掘教学总时数为72学时,其中理论为54学时,实验为36学时。

1.理论教学。对于信息管理与信息系统专业的学生,我们可以设置如下的教学计划,可分为三个主要部分。我们教材选择韩家炜的《数据挖掘概念与技术》,第一部分:第一至四章为数据挖掘的基础知识,包括数据仓库和数据挖掘的基本概念和相关知识介绍;第二部分:第五、六章介绍了数据挖掘的算法和工具;第三部分:第七章是数据挖掘的聚类分析的实际应用。本课程是信息管理与信息系统专业本科生专业必修课。通过该课程的学习,要求学生掌握数据仓库和数据挖掘的基本概念,了解基本方法和应用背景。掌握数据仓库的设计和建立,掌握数据挖掘的主要步骤和实现方法,数据挖掘的常用算法,实现数据挖掘的具体操作。理论学时的安排,第一章绪论(6学时);第二章数据仓库(4学时);第三章数据预处理(8学时);第四章数据挖掘发现知识的类型(8学时);第五章数据挖掘中常用算法(12学时);第六章数据挖掘的工具及其应用(8学时);第七章数据挖掘应用实例(8学时)。

2.实验教学。本课程配合理论教学,通过系统的实践教学锻炼,着重培养学生的独立分析问题和解决问题的能力,熟练掌握数据仓库的设计和建立以及各类数据挖掘方法,使学生具有一定的数据分析和挖掘能力,能在认识基础上,提出有效的数据挖掘方法,依据实际例子,写出解决方案。学生应在实验课前明确实验的目的和要求,然后针对相关问题写出解决方案。实验时对实际方案的运行结果应能进行分析并提出改进方法,最终写出实验报告。通过实验教学应达到以下基本要求:①理解数据仓库的工作机理及其构建过程;②掌握典型的数据仓库系统及其开发工具的使用;③理解数据挖掘技术的工作原理与流程;④掌握典型数据挖掘工具的使用;⑤掌握几种典型的数据挖掘算法;⑥掌握使用SQL SERVER 2000和SPSS工具解决实际问题。实验成绩包括:实验教学过程成绩、实验报告成绩,各占50%。实验过程表现成绩包括:学习态度是否认真、实验操作是否正确规范、基本技能掌握程度是否具有创新意识等方面。实验报告成绩包括:实验报告格式是否正确、原理是否论述清楚、实验结果分析讨论是否符合逻辑,报告字迹是否清楚等方面。

3.课程设计。理论课和实验课接近结束时,我们把最后三周作为本门课程的课程设计。课程设计的目的是让学生进一步深刻理解所学知识。由于本门课程很多算法不容易理解,如何让学生把所学知识结合到医学应用中是课程设计的关键。比如我们对信息管理与信息系统专业的学生课程设计,要求学生每人选择一个老师给定的题目,课程设计有详细的要求,比如题目“数据挖掘在医学诊断中的应用”要求学生能把本门课程相关的算法结合使用,最后给出详细的分析。通过课程设计,我们发现,学生对本门课程更有兴趣。

4.毕业论文。我们把课程一般开设在大三的下学期,也就是说学生学完这门课程后,就做了该门课的课程设计,使得学生对数据挖掘相关知识有了比较深刻的认识。这样,我们可以引导学生毕业论文的选择。毕业论文毕竟是反映学生大学四年所学知识,也对他们将来就业起到提前培训的作用。把理论结合实践,老师对学生的引导也十分重要。

我们根据医学院校的特征,提出了一套目标驱动的教学理念,从学生认识这门课程到学生理论课的学习,实验课的学习,课程设计及毕业论文的完成,在老师的指导下,使用我们的考核体系,可提高学生对所学课程的兴趣。

参考文献:

[1]高圆圆,吕庆文.数据挖掘课程的教学思考[J].医学信息,2009,(11).

数据挖掘技术分析论文范文第8篇

关键词:数据挖掘 客户关系管理 企业发展

企业管理中客户关系的管理必不可少,并且良好的管理有利于企业发展,有利于企业获取更大的财富,有利于企业实现自己的价值,所以保障对企业客户关系的管理。数据挖掘技术就是一个可以帮助企业对客户关系进行有效的管理的工具。

一、数据挖掘和客户关系管理含义

数据挖掘技术(Data Mining可以简称为DM),简单来说,就是一种把隐藏在大型数据库或者数据仓库中所需要的有用信息提取出来的新技术,这是一个对数据库进行研究的非常有价值的领域。数据挖掘技术可以帮助用户从数据库中准确的提取出有用的商业信息,为用户在进行决策时提供重要的支持。

客户关系管理(Customer Relationship Management可以简称为CRM),也有人称之为“顾客关系管理”,关于客户关系管理的定义,目前有两种说法:一,最早的Gartner Group定义为一种商业策略,就是把客户进行分类,并依据分类情况来对企业的资源进行有效的组织,进而企业的业务流程实施以及经营活动都要以客户为核心来进行,以此来提高企业的盈利能力以及客户满意度,取得最大利润;二、是由CRMguru.com给出的定义,客户关系管理就是一个在企业的营销、销售以及服务的业务范围内,把企业现有的客户以及潜在客户,还有业务伙伴多渠道进行管理的过程,或者说技术。

二、数据挖掘在客户关系管理中的应用

随着社会经济的不断发展,市场竞争力也在逐步的增大,商家想要获得最好的利益,就必须对市场的变化迅速的做出反应,能够引起市场变化的重要因素就是客户需求的变化,也就是说,企业必须集中注意力,观察客户需求的每一变化,并把这些资料收集在一起,作为企业发展的宝贵资源进行管理。在企业管理客户信息的过程中,就需要应用到了数据挖掘技术。

数据挖掘技术在客户关系管理中的应用过程中,主要方法有:神经网络法、遗传算法、决策树法、粗糙决算法以及可视化技术、K—最近邻技术等,每个公司的客户关系不同、需求也不同,所以要用到的方法也不同。

数据挖掘技术主要应用于客户关系管理中的这几个方面:(1)挖掘新客户,数据挖掘技术可以对现有的客户信息和市场环境进行统计总结以及归纳,准确的确定潜在客户以及市场目标。因为数据挖掘技术具有统计、聚类和关联的作用,比如说,数据挖掘技术在数据库中发现了这样一个信息“某客户在购买A商品之后,过了一段时间又购买了B商品,最后还购买了C商品”那么数据挖掘技术就会通过次序关联,把这个信息形成“A—B—C”的行为模式。(2)可以保持优质客户。现在社会竞争相当激烈,企业客户更是企业发展的重要因素,优质客户对每个企业来说就更加的重要。数据挖掘技术可以对数据库中的流失客户信息进行分析,并且对流失客户的特征进行准确的描述,然后利用关联、近邻的方式对整个数据库中的消费客户信息进行分析,分析出容易流失的客户,随后就需要采取相应的措施来减少这些客户的流失,尤其是那些可能流失的优质客户,更要采取有力的措施来进行挽留。(3)可以提升客户价值。目前提升现有客户的价值的方式有两个:一是提供特色服务或者产品;二是销售新产品或者服务。想要准确的提升客户价值,就需要数据挖掘技术的帮助了,他可以把之前的客户信息研究分析,并依据新产品或者服务的特征,发现和客户的已购买产品之间的关联,因而准确的找到具有最大购买趋势的客户。

三、加强客户关系管理中数据挖掘的意义

应用数据挖掘技术对客户关系进行管理,可以有效的提高企业的核心竞争力,现代社会的激烈竞争,也就是对客户的竞争,数据挖掘技术对企业的客户关系进行详细的分析,并为企业提供有价值的商业信息,为企业的重大决策提供了重要的参考依据,进而有力的提高了企业的核心竞争力;可以有力的增强企业的执行力,利用信息技术对客户关系进行管理,降低成本,并简化执行任务,有效的实现了资源共享,大力的提高了企业的自动化水平,企业职工的执行能力也进一步得到了提高,也就是增强了企业的执行力[3];可以为企业的下一步战略发展提供帮助,数据挖掘技术对现今的市场环境进行分析,可以预测到每个业务的发展状态,以及每个业务与发生过的商业行为之间的关系,有了这些信息,可以准确的制定企业未来的发展战略,并且可以制定与市场环境相适应的营销策略。

综上所述,目前数据挖掘技术是企业进行客户关系管理的最有效的工具,准确的掌握了客户信息,就是准确的把握了市场需求,可以为企业制定完全适应于市场的发展方向。数据挖掘技术的关键作用就是找出潜在客户,保留忠诚客户,并利用企业有限的资源,对这些客户提供最好的服务,促进企业的不断发展。

参考文献:

[1]张荣耀.基于数据挖掘的客户关系管理研究[D].武汉理工大学, 硕士学位论文,2004,11

[2]王海波.基于数据挖掘的客户关系管理研究[D].大连理工大学,硕士学位论文,2004,6

数据挖掘技术分析论文范文第9篇

在大数据的时代环境下,计算机是可以智能到发现数据背后蕴藏的规律的,它能够发现新的知识,创造新的价值,借助计算机让数据自己说话。事实上,大数据挖掘已经上升到国家新型信息化产业的战略高度。

在中国科学院计算技术研究所智能信息处理重点实验室,有一支机器学习与数据挖掘团队,它是国内开展机器学习与数据挖掘最早的团队之一。自2000年,何清博士接过团队接力棒以来,一直致力于这个方向的科研和开发工作。

何清,2000年进入中科院计算所智能信息处理重点实验室从事博士后研究工作。一开始主要从事机器学习和数据挖掘算法的研究,研究提出了基于超曲面的一系列机器学习与数据挖掘算法。随着研究的深入,他逐渐意识到数据挖掘作为一种基于人工智能的决策支持过程,必将随着人类社会信息量的爆炸式增长而发挥越来越重要的作用,而我国在海量数据挖掘方面的成果当时还十分薄弱。作为一名科研工作者,他决心在这方面探索突破,以填补国内在该领域的空白。这成为他带领机器学习与数据挖掘团队不懈奋斗的最大动力。

“有志者,事竞成。”带着这样的志气,何清带领他的团队成员奏响了一曲斗志昂扬、攻坚克难的奋斗强音:近年来,他们先后在国际重要SCI期刊32篇,顶级会议近20篇,EI收录51篇。承担并圆满完成国家重点基础项目(“973”计划)3项;承担完成的“863”项目3项获得好评:承担完成或参加完成的国家自然科学基金项目5项被评为优或特优。获得北京市科学技术奖1项。课题组已经取得国家发明专利8项,软件开发著作权8项。在模糊信息处理中的信息扩展和聚类问题的研究和基于超曲面的海量数据分类法(Hsc)以及一套基于此的理论体系和算法方面均有创新性突破。目前团队在研课题共有6项,均进展顺利,特别是在多领域、多任务Web数据分析与挖掘、迁移学习分类问题上取得突破性进展。团队在Web内容管理、分析和挖掘上走在国内研究同行的前列,现正致力于人口数据和信息安全数据的大数据分析挖掘,有望取得创新性成果。

团队自2008年以来,一直坚持在并行数据挖掘领域开展系列研究,在这个方向也取得了国内领先的研究成果,相关成果发表在cloudCom09等领域内重要的国际期刊和会议中,其中并行K-Means算法论文单篇他引87次。在大数据时代,特别是在基于云计算的数据分析和挖掘是大数据分析的主流技术方面,何清及其团队一直站在研究领域前沿,立志可以对大数据、云计算技术的应用起到引航作用。

数据挖掘技术分析论文范文第10篇

中图分类号:G256 文献标识码:A 文章编号:1006-4311(2012)22-0003-030 引言

文献是人类发展进步过程的记录,具有时间上的连续性和空间上的统一性。数据挖掘又称数据库中的知识发现,是从大量数据中获取有效的、新颖的、最终可理解的、具有利用价值的模式的过程,[1]广泛应用于工业、商业、网络、医学等领域。[2]本文利用数据挖掘技术,从中国知网等中文数据库中,检索获得了在文献题名、主题或关键词中包含“价值工程”的全部相关文献,建立了《中国价值工程研究文献数据库》,并利用数据挖掘技术进行了具体的统计分析和挖掘研究,为全面了解我国价值工程学术研究与推广应用历史、现状和发展趋势提供了量化依据与参考。

1 价值工程学术文献的数据来源

中文价值工程学术文献是指在中国大陆以中文发表的与价值工程相关的期刊论文、博士论文、硕士论文、学术会议论文、科技成果、专利等各类学术文献。因为报纸和年鉴文献以消息报道为主,所以没有收入;图书不方便统计分析,也没有收入。[1]

中国知网系列数据库,包含了我国99.9%的中文期刊文献、98%的博士硕士论文和学术会议论文、100%的科技成果和专利文献,基本上涵盖了我国各类公开发表的学术文献。2012年3月6日,利用中国知网系列数据库,精确检索了1949-2011年在文献“题名、主题或关键词”中包含“价值工程”的全部文献;把每条文献的题名、作者单位、发表时间、主题内容等信息录入计算机,建立了《中国价值工程研究文献数据库》,删除重复文献后,共8538篇。其中期刊论文是最主要的文献类型,共6415篇,占75.13%;科技成果939项,占11.00%;硕士研究生论文676篇,占7.92%。学术会议论文457篇,占5.36%;博士论文45篇,占0.53%;专利6篇,占0.07%。各类学术文献分布情况见表1。

2 文献发表时间挖掘研究

价值工程是美国麦尔斯(L.D.Miles)20世纪40年代创立的一种价值分析和评价方法,是一门技术与经济相结合的应用科学。起初用于材料采购、产品生产,后来很快扩展到改进工作方法、作业程序、管理体制等方面。现在,凡是有功能要求,并需要付出时间和费用的地方,都可以用价值工程原理进行分析研究。[3]

1978年价值工程引入我国,1980年开始发表与价值工程相关的研究论文,1981年发表46篇,1982年上升到72篇,1983年为127篇,以后保持在每年200篇左右。21世纪初上升到300篇,现在我国每年发表价值工程相关文献500余篇。我国历年发表价值工程方面的文献情况见表2。

3 文献作者与机构挖掘研究

发表价值工程学术文献最多的机构是浙江大学和重庆大学,分别是109篇和102篇,其次是天津大学、西安建筑科技大学和广西大学,分别发表88、76和74篇;再次是吉林大学、同济大学、华北电力大学和山东经济学院,分别发表67、64、57和52篇。其余发表30篇以上价值工程学术论文的单位见表3。这是我国价值工程的主要研究机构。

从价值工程学术论文作者看,浙江大学马庆国发文最多,已发表20篇;浙江大学的王小毅和暨南大学的谭浩邦第二,各发表18篇;发表10及以上的作者还有浙江大学的尚倩17篇,广西大学的梁戈夫16篇,华南理工大学的张彩江和广西水利电力厅的刘仲桂各13篇,中国人民大学的田威和华南农业大学的柯兴彬各10篇。这些作者是我国价值工程研究领域的核心作者。

4 科研基金资助情况挖掘研究

科研基金资助是取得研究成果的重要条件,有264篇价值工程研究论文得到59种科研基金的资助,占论文总量的4.12%,明显高于其他学科或领域,表明价值工程研究与应用倍受各类科研基金关注。有19种国家各类科研基金资助过价值工程研究,180篇;其中,国家自然科学基金资助最多、124篇,国家高技术研究发展计划(863计划)和国家社会科学基金各10篇,国家科技支撑计划6篇,航空科学基金5篇,其余25篇论文来源于13种其他科研基金。21个省市自治区共有40种科研基金,资助84篇。其中辽宁5种基金、8篇论文、上海4种、7篇,山东3种、11篇。21个省市自治区科研基金资助价值工程研究情况见表4。

5 期刊论文的挖掘研究

6415篇期刊论文来源于各个学科的1775种期刊;载文最多的是《价值工程》,共1845篇,占28.78%;刊载50篇以上的期刊还有《山西建筑》、《财会通讯》、《建筑经济》;刊载20-50篇的期刊有《科技信息》、《管理现代化》、《工业技术经济》、《技术经济》、《基建优化》、《企业管理》、《科技咨询》;以上11种期刊共刊载2249篇文献,占总量的35.06%,按照布拉德福定律,[4]可以说这是价值工程领域的核心期刊。刊载4-25篇文献的期刊共297种,载文2085篇,占32.50%,这是价值工程领域的相关期刊。刊载1-3篇的期刊有1467种,共载文2084篇,占32.49%,这是价值工程的边沿期刊或一般期刊(见表5)。

上一篇:公共关系专业范文 下一篇:大学英语听力课程范文