数据挖掘技术探讨论文范文

时间:2023-11-10 04:27:14

数据挖掘技术探讨论文

数据挖掘技术探讨论文篇1

关键词:数据挖掘原理与算法;实例;教学探索

0.引言

随着经济、科技和信息技术的飞速发展,特别是网络技术的发展,数据的产生和存储能力有了很大程度的提高。数据挖掘的出现,为人们提供了一条解决“数据丰富而知识贫乏”困境的有效途径Ⅲ。所以很多高校,包括世界上一些著名高校都开设了数据挖掘课程。课程的基础理论部分一般包括数据预处理、关联规则、分类、聚类、时间序列挖掘、Web挖掘等内容。该课程使学生学会分析研究数据挖掘中数据预处理、常用算法、结果的可视化等技术,并培养学生的数据抽象能力,帮助学生形成科学思维和专业素养,使他们毕业后在就业上有更多的选择。

笔者将探讨基于实例教学的数据挖掘课程的教学内容安排,强调淡化学科背景,加强算法的应用性训练,将实际的例子贯穿于教学中,并重新组织授课内容、安排实践环节,教会学生学以致用。

1.教学现状分析

1.1课程本质

数据挖掘原理与算法涉及的学科领域很宽泛。其最终目的是在数据中挖掘出可供人们利用的知识和信息,因此数据挖掘技术要从数据库技术、统计学、机器学习、神经网络、知识系统、信息检索、高性能计算和可视化等领域汲取营养。另外,每个学科都在进行着日新月异的发展变化,数据挖掘技术遇到的挑战也为相关学科领域的深入研究提供了新的契机。由于课程难度较大,很多高校把这门课程作为研究生的专业课程,也有院校将此课作为本科生高年级选修课开设脚。但是本科生开设这门课程的普通院校较少,我们能借鉴的教学经验有限。

1.2数据挖掘课程教学环节的弊端

①某些学校对本科生开设的数据挖掘课程,其教学过程对理论的探讨过多,与应用存在距离,没有体现出这门课程面向应用的特质,缺少对学生工程能力的训练,存在学生在学了这门课程后不知道能干什么的现象。

②教学形式呆板单一。传统的教师讲、学生听的教学模式,很难引起学生的探究兴趣,不利于发挥他们自身的能动性和创新动机。

2.选择恰当实例贯穿数据挖掘课程的教学过程

烟台大学计算机学院所开设的数据挖掘课程在教学上安排了6章内容,涉及3个实例(其中两个是实际生活中的项目课题):第1个是用于房产信息调查的房产客户关系管理系统;第2个是用于烟台大学督评中心评教文本分类的中文文本数据挖掘系统;第3个是用于国家葡萄酒检测中心的数据分析的葡萄酒成分数据挖掘系统。

2.1房产客户关系管理系统

在讲述房产客户关系管理系统时内容涵盖绪论、知识发现过程和关联规则3章,重点讲授内容包括:

(1)数据仓库。住房管理数据仓库中的数据是按主题组织的,可从历史观点提供信息。数据挖掘技术能按知识工程的方法完成高层次需求,可以发现蕴藏在数据内部的知识模式。挖掘后形成的知识表示模式可为企业决策提供支持。

(2)通过对客户信息进行分析,阐述关联规则的参数:support、confidence、expected confidence,并简单介绍关联规则中的多维、多层次等拓展知识。

(3)关联规则挖掘。①讲授关联规则挖掘的Apriori算法;②讲述布尔关联规则的概念,对处理后形成的交易数据库进行布尔关联规则挖掘,将问题转化为寻找以决策属性为结果的规则;③将关联规则挖掘应用于客户关系管理的最终目的是努力将潜在客户转变为现实客户,将满意客户转变为忠诚的终生客户,提高客户满意程度,降低市场销售及宣传成本,增加利润率。

(4)设minsup=10%,minconf=70%。在统计的各类人群中猎取咨询的渠道主要是杂志、报纸、互联网和电视。经试验统计后得到以下有关知识:①满足age>50 AND职业=“工人”的客户占所统计总人数的9.7%;其中满足age>50 AND职业=“工人”AND渠道=“TV”的客户占92%。②符合学历=“大专”AND职业=“工人”的客户占所统计总人数的24.8%,其中满足学历=“大专”AND职业=“工人”AND渠道=“newspaper”的客户占82%。③被统计人群中满足income=“5000-9000”AND职业=“教师、医生、公务员”的客户占所统计总人数的32.7%;其中满足income=“4000-6000”AND职业=“教师、医生、公务员”AND渠道=“杂志”的客户占83%。④被统计人群中满足学历=“本科”AND income≥“10000”的客户占所统计总人数的占11.6%;其中符合学历=“本科”ANDincome≥“8000”AND职业=“公司经理”AND渠道=“杂志”的客户占86.5%。

(5)教师要分析Apriori算法的瓶颈和改进,介绍Close算法和FP-树算法,并且要求学生们掌握这3种经典算法。

2.2中文文本数据挖掘系统

中文文本数据挖掘系统围绕评教分类模型的建立讲述特征选择和主要分类算法。根据烟台大学教学督评中心提供的学生对教师的中文评教文本,利用分类的方法找出其评价的倾向性,结合教材,重点讲授了以下内容:

1)特征选择。

①介绍有监督、无监督和半监督的特征选择方法。②介绍使用分词软件后,统计词频,去掉小于阈值的低频词。③对比词频率、IG值(信息增益)、期望值差异对分类结果的影响留取特征词。

部分数据示例如下:用特征选择的方法对重要的属性进行抽取,略去对分类影响不大的属性,达到降维的目的,把特征选择作为预处理。我们选用517条主观评价作为训练样本,其中233条留言是一般评价,采用以下3种方式进行特征选择:词频率、IG值(信息增益)、期望值差异。不同方式特征选择对分类准确性的影响如表1所示。

2)分类。

在介绍常用的分类基础知识和决策树、ID3、朴素贝叶斯分类、最近邻分类算法之后,又介绍了基于潜在语义分析的降维技术,讲授了支持向量机(SVM)适用于文本分类的原因。布置给学生的任务是用爬虫获取网评,作倾向性分析。

评教文本分类统计后的结论是:将降维技术和支持向量机算法结合在评教模型的建立过程中,研究讨论的主要内容有:①各个指标取不同值对分类的影响,这些指标主要集中在特征抽取和选择、保留词性和降维维数等几方面;②对分词后的文本进行特征选择,筛去了词频数小于4的文本;③降维至30维,并适当设置SVM中的可变参数,找到合适的训练一测试样本的比例,最后综合出一个现有条件下的最佳分类模型。

2.3葡萄酒成份数据挖掘系统

葡萄酒成份数据挖掘系统介绍数值数据的预处理和聚类2章内容。对葡萄酒成份的分析是根据所提供的酒中各成份的含量数据,采用聚类或分类的方法确定某种葡萄酒的种类,比如是红葡萄酒、白葡萄酒还是甜葡萄酒。围绕这个问题我们介绍了如下内容:

1)数值数据的预处理。

①介绍葡萄酒中各个属性的含义和取值范围;②讲授数据的离散化技术,如等深、等宽、聚类技术;③讲授本例中使用的m一估值计算对数值属,1生的离散化技术;④讲述本例中如何避免0值出现及去噪声技术。

葡萄酒中各成份的含量数据如表2所示。

2)聚类。

在介绍聚类的基本知识和常用算法(如k均值、k中心点、DBSCAN技术)之后,讲解了:①本课题使用的层次聚类算法。在测试结果时通过测试样本和分类样本的不同比例,对结果进行了对比。②讲述了用朴素贝叶斯分类计数对这一问题的分类处理,同时对比了聚类和分类算法在同一问题上的结论差异。利用朴素的贝叶斯分类器可以完成预测目标,根据训练样本建立分类器,对待测样本进行预测,准确率可达到90%以上。③引导学生思考对问题的处理可以联合使用各种算法,并分析各种算法对结果的影响,从而找出解决问题的最佳方案。

2.4利用已知算法和实例讲授Web挖掘技术

因特网规模庞大、结构复杂、动态变化性大,蕴含大量的信息。将Web上丰富的信息转变成有用的知识正是Web挖掘的意义所在。用之前中文文本分类的方法引导学生在一些购物网站中下载对商品评论的中文文本,抽取特征词,进行倾向性分析,使学生熟悉支持向量机的分类方法,分词软件的使用及文本挖掘的整个过程。

3.结语

文章在前期制定应用型本科生数据挖掘课程教学大纲的基础上,针对数据挖掘课程内容多学科交叉的特点,在教学中提出淡化学科背景,注重算法应用与实践,以客户关系管理、葡萄酒数据分析、中文评教文本分类等实例作为授课内容主线,让实例教学始终围绕着典型的算法和前沿知识展开的教学方式。在今后的教学工作中,我们还应该不断站在学科发展的前列,经常更新实例,使其更好地融入教学,将教与学有机统一,取得更好的教学效果。因此我们还有大量的工作需要探索研究。

参考文献:

[1]宋成,李晋宏,项目驱动的数据挖掘教学模式探讨[J],中国电力教育,2011(27):116-177.

[2]刘云霞,统计学专业本科生开设“数据挖掘”课程的探讨[J],吉林工程技术师范学院学报,2010(6),20-22.

[3]徐金宝,对应用型本科生开设数据挖掘课程的尝试[J],计算机教育,2007(7):27-29.

[4]高园园,吕庆文,数据挖掘课程的教学思考[J],医学信息,2009,22(11):23-24.

[5]谭征,孙红霞,王立宏,普通院校本科生开设数据挖掘课程的教学研究[J],福建电脑,2011,27(10):38-39.

数据挖掘技术探讨论文篇2

关键词:云模型 数据挖掘 可视化

中图分类号:TP311 文献标识码:A 文章编号:1007-9416(2013)07-0065-01

随着信息呈爆炸式趋势增长,人们急需从不同角度对海量信息进行解读,使数据挖掘需求日盛。然而,传统数据挖掘方式各有弊端,云计算方式成为必然选择,基于云模型的数据挖掘技术研究也成为重要课题。

1 云计算与云模型

云模型模型数字特征示意图如图1。其中Ex能够代表定性的概念,反映云滴群的云重心。En可以反映概念的模糊度,以及一定程度上表明模糊度与随机性的关联度。He是直接反映云的集中程度,用以表示空间中所有点的凝聚程度,在云模型中称之为熵。

2 云模型数据挖掘分析

(1)云模型数据挖掘的特点优势。

(2)云模型下的可视化技术。

云模型始终属于较为抽象的概念,主要将模型具体化,利用图形、图像等形式,并通过一定技术手段表现出来。如图2所示,都可以表示数据的不确定性。

可视化是通过云发生器来实现的。发生器有正向与逆向之分,正向发生器基于三个特征数字来实现可视化,根据三个特征数字产生云滴,近而累积成云;逆向发生器基于数据开发挖掘云模型的三个特征数字,是定量到定性的映射,在此基础上进一步反映整个云滴的整体。

3 基于云模型的数据挖掘技术

通过以上对云模型特征数字的分析,可以通过参数的使用分析,构建特征空间和概念空间。概念空间是从同一属性角度来集合不同的概念,而特征空间则是通过集合不同的属性来描述实体。云模型中云滴的分布会形成一个空间,在概念空间里云滴会构成一个等势线,称其为概念层次。同样,在特征空间中也会有概念层次,代表着实体的等势层次。

在概念空间中,每个数据都会在云模型中形成一个云滴,众多云滴构成一个空间。但是每个数据的权重、影响力可能不一样,模型中从云滴的位置以及云滴的亮度来表征这个问题。云滴的位置越靠近云重心、云滴越亮则云滴的影响力越大。在概念空间中,可以选择不同的角度来分析空间数据,而选择角度不同就是选择不同的函数来计算点势。图3为概念空间的等势线与等势面举例。

概念空间基于对概念的分析归类。不同的概念之间应该有着众多关系类型,诸如包含、从属、等价、相似等等。通过数据场的交互作用而构成泛概念树。云模型中的泛概念树区别于一般意义上的概念树,可以拥有多个父节点。泛概念树的组成情况可以因为不同的属性集合、实体群组合状态等的不同而不同。

在特征空间中,其等势的思想方法与概念空间中相似,两者的区别就在于特征空间以实体为基本的空间点,概念空间则是从属性角度出发表达概念。当问题集中在讨论空间实体的特征时,常常用特征空间加以表示。从特征空间角度对实体进行研究,其空间粒度与空间范畴将变得更大。特征空间所描述的实体的特征将构成一个多维的空间。通过把实体的多种属性以某种方式投射到空间中,形成一个特征点,累积下来就完成了特征空间的构造过程。随后进行数据分析,通过数据空间点所呈现出来的特性进行数据挖掘,这些特征包括点的整体抱团聚类、势的特征等等。普通的分析方式对于数据聚类的分析往往采用练习数据集归类和测试方法的有效性两部分,但是两部分数据的选取原则与选取标准仍然不够完善,并且对数据的不同权重也没有足够的关注。因此在特征空间中得到数据分析聚类结果更可靠。

总之,基于云模型的数据挖掘,结合不确定性推理和云变换共同实现挖掘技术。通过云滴模型的构建,能够具备三个特征参数值,能够反映云模型的中心值、模糊度、离散度等模型特征。从模型特征又可以进一步对实体的定性问题、概念模糊度、随机度等进行分析。云模型技术能够很好地进行定性概念与定量数据间的映射。数据挖掘则可以通过不同势层的表征,结合不同观察角度来实现信息的过滤和提取。基于云模型的数据挖掘技术以其高存储性能和超强计算能力日益得到广泛的应用,技术上的深入研究也显得紧要而迫切。

参考文献

[1]巩华荣,何佳.空间数据挖掘技术的研究与发展[J].测绘与空间地理信息,2007(05).

[2]何彬彬,方涛,郭达志.不确定性空间数据挖掘算法模型[J].中国矿业大学学报,2007(01).

数据挖掘技术探讨论文篇3

参考文献的格式是有国际标准和国家标准的,参考文献应该参照GB/T7714--2005著录,我们在精选相关的著名的文献资料,按顺序编码标注,依次列在论文的末尾。关注学术参考网查看更多优秀的参考文献,下面是小编整理的关于数据库论文国外参考文献,给大家阅读欣赏。

数据库论文国外参考文献:

[1]艾孜海尔江·艾合买提.基于Web数据库的数据库挖掘技术分析[J].科技致富向导,2012,24(27):217——219.

[2]刘霞,赵鑫,吕翠丽.数据库挖掘技术在网络安全防范中的应用[J].动画世界,2012,20(06).

[3]尚世菊,董祥军.多数据库中的副关联规则挖掘技术及发展趋势[J].计算机工程,2009(05).

[4]吕安民,林宗坚,李成明.数据库挖掘和知识发现的技术方法[J].测绘科学,2010(04):123——130.

[5]曾霖.基于Web数据库的数据库挖掘技术探究[J].软件,2013,27(02):174——176.

数据库论文国外参考文献:

[1]宋安,习勇,魏急波.基于μCLinux的NAT设备的设计与开发[J].电子工程师,2005-05-15.

[2]徐叶,袁敏,李国军.嵌入式Web服务器远程监控系统的设计与实现[J].计算机与现代化,2013-02-27.

[3]王俊,郭书军.嵌入式Web服务器的实现及其CGI应用[J].电子设计工程,2011-11-05.

[4]高建国,崔业勤.ARTs-EDB的内存数据存储管理[J].微计算机信息,2010-01-25.

[5]陈嘉.嵌入式主存数据库索引机制的研究与改进[D].湖南师范大学,2006:278-282.

[6]刘志东.基于嵌入式Web技术的远程射频识别系统的设计与实现[D].西北民族大学硕士论文,2012-04-01.

[7]贺永恒.基于IAIDL的信息家电体系结构研究[J].中国科技信息,2009(04):154-156.

[8]陈一明.嵌入式数据库的智能家居网关设计[J].微计算机信息,2009-04-15.

数据库论文国外参考文献:

[1]余明辉,胡耀民.基于SQLServer2008决策支持系统模型的研究和应用[J].微计算机信息,2010,26(2-3):178-180+192.

[2]张克友.基于SQLServer财务数据库安全技术的探讨[J].信阳师范学院学报(自然科学版),2008,21(4):587-590.

[3]胡家汉,李景峰.对SQLServer数据库的安全和管理策略探讨[J].计算机光盘软件与应用,2012,(2):101-102.

[4]胡登卫.高校实验室信息化管理系统SQLServer数据库安全策略研究与实施[J].商丘师范学院学报,2009,25(3):96-99+106.

[5]吴可嘉,姜莉莉,刘昌祺.Delphi下利用ADO技术实现对MSSQLServer数据库存取[J].西北轻工业学院学报,2002,20(1):75-78.

[6]张经和,基于Web的数据库访问模式的研究[J].信息化建设,2005(02).

数据挖掘技术探讨论文篇4

【摘要】 目的 探索治疗肺纤维化中药复方的用药规律。方法 利用中国生物医学文献数据库检索到公开发表的文献中治疗肺纤维化的中药复方,建立相应数据库,采用频数分析、聚类分析、关联规则等方法对复方进行数据挖掘,对主要药物、药对(组)规律进行探讨。结果 在治疗肺纤维化的64首中药复方中,涉及114种药物,使用频次为584次;其中使用频次在5次以上的共36种、431频次;作为主要药物进行聚类分析,共分为补益药、活血药、化痰药、宣肃肺气药、清热药、平喘药6类;经关联规则分析,共得药对规则19条,药组规则25条,主要为益气药与活血药的配伍组合。结论 应用数据挖掘方法探索治疗肺纤维化中药复方用药规律是可行的。

【关键词】 肺纤维化;中药复方;用药规律;数据挖掘

Abstract:Objective To study the regularity of compound herbal formulae for pulmonary fibrosis. Methods Compound herbal formulae published on journals for the treatment of pulmonary fibrosis were searched and collected. A database was established for data mining using frequency count, cluster analysis and association rule analysis. Regularity of key herbs and a pair (group) of herbs was summarized. Results There were 64 prescriptions (totaling 114 herbs and 584 counts of frequency) in the compound herbal formulae for pulmonary fibrosis. The herbs which were used for more than 5 times included 36 herbs (totaling 431 counts of frequency). They were cluster analyzed and classified into 6 clusters including tonic, hemorheologic agent, apophlegmatisant, drugs used to disperse and lower the qi of the lung, heat-clearing drugs and antiasthmatic. The rules in pair of herbs were 19, and rules in group of herbs were 25 by association analysis. The rules consisted mostly of compatibility of qi-reinforcing drugs and hemorheologic agent. Conclusions It was feasible that study the regularity of Chinese compound prescription for the treatment of pulmonary fibrosis by data mining.

key words:pulmonary fibrosis;compound herbal formulae;regularity;data mining

间质性肺疾病(interstitial lung disease,ILD)是众多具有不同程度炎症和纤维化的急、慢性肺病,其最终病理结局是肺纤维化。近10年来,多数学者尝试用中医药治疗本病,虽然目前处于探索阶段,但已显示出了良好的前景,涌现出了一批治疗肺纤维化的中药复方。虽然组建处方的中医师受不同学术流派的影响,处方用药因个人经验而不同,但不同处方中可能隐含着许多很有价值的规律,而数据挖掘能够自动地发现隐藏在数据中的规律,更能偶然地发现一些非预期但很有价值的知识[1]。因此,采用数据挖掘方法探索这些复方的用药规律,可以对众多中医专家治疗肺纤维化的宝贵经验加以整理和挖掘,以期比较全面地获得对中医基础理论和临床实践规律的统一认识。

1 资料与方法

1.1 数据收集

首先以“肺纤维化”为主题词检索中国生物医学文献数据库(CBMDISC,1978年1月-2010年8月),通过阅读标题及摘要,初步获得有关中医药治疗肺纤维化的文献,仔细阅读全文,按组方符合中医理论、药味完整、剂量准确、主治明确、临床例数至少20例等标准,选取中药复方;将符合标准的64个复方按照编号、方名、药名、参考文献等依次输入Microsoft Excel 中,分别建立相应的数据库,各数据库间通过数据编码在不同数据间形成关联。

1.2 数据清洗

选取中药数据库进行数据清洗,主要工作是将药名规范化,如将“山萸肉”统一为“山茱萸”,“浙贝”统一为“浙贝母”。组合概念拆分,如药味“味甘辛”拆为“味甘”、“味辛”;如归经“归肺脾经”拆为归“肺经”、“脾经”;如功效“清热化痰”拆为“清热”和“化痰”等。在新得到的中药数据库中,按《中华本草》所载,输入每味药物的性、味、归经和功效,并将其数字化。其中寒、热、温、凉等药性按蒋氏方法[2]赋值;对于酸、苦、甘、辛、咸等药味及归经、功效主治等,某药的描述与其某一项相符则记为1,无则记为0。由2个人分别输入数据,完成后交叉核对,不一致处,讨论解决。

1.3 数据挖掘

1.3.1 描述性分析

采用频数分析方法,计算药物的种类及每味药的使用频次。

1.3.2 聚类分析

对使用频次超过5次以上的药物,按药物的性味、归经、功效主治以分层聚类法进行聚类分析。

1.3.3 关联规则分析

采用关联规则挖掘药对配伍规律,设最小支持度20%,最小可信度50%。

1.4 数据挖掘工具

描述性分析和关联规则分析由STATISTICA8.0软件完成,聚类分析由SPSS17.0软件完成。

2 结果

2.1 描述性分析结果

64个复方中使用114种药物、共584频次。其中出现5次以上的有36种,由高到低为:黄芪(48)、当归(37)、丹参(34)、川芎(27)、甘草(22)、麦冬(21)、党参(16)、沙参(15)、杏仁(12)、生地黄(12)、黄芩(12)、五味子(11)、红花(11)、半夏(11)、瓜蒌(9)、蛤蚧(9)、桑白皮(8)、桔梗(8)、浙贝母(7)、熟地黄(7)、地龙(7)、川贝母(7)、白果(7)、郁金(6)、鱼腥草(6)、水蛭(6)、人参(6)、金银花(6)、莪术(6)、赤芍药(6)、白芍药(5)、枳壳(5)、全蝎(5)、麻黄(5)、茯苓(5)、冬虫夏草(5),共431频次。

2.2 聚类分析结果

36味常用药物共分为6类,根据每类药的主要功效加以归类,并将每味药在治疗肺纤维化中所应用的主要功效进行整理,结果见表1。

表1 36味药物聚类结果

2.3 关联规则分析结果

药对共得关联规则19条,获得药对13对:党参、黄芪;沙参、丹参;黄芪、丹参;川芎、丹参;当归、丹参;甘草、当归;麦冬、当归;黄芪、当归;川芎、当归;川芎、黄芪;甘草、黄芪;麦冬、黄芪;甘草、麦冬。见表2。药组(每组3味药以上)共得关联规则25条,共获得药组5个:川芎、丹参、黄芪;当归、丹参、黄芪;川芎、黄芪、丹参、当归;川芎、当归、丹参;川芎、当归、黄芪。见表3。表2 药对关联规则 表3 药组关联规则

3 讨论

数据挖掘技术应用于中医药研究,成为促进中医药科研发展和实现中医药现代化的重要组成部分[3]。数据挖掘只是人类认识和探索世界的一个工具和方法,它可以发现一些潜在的现象,但不会告诉你为什么。数据挖掘的结果必须在相应目标领域专家的指导下进行解释和评价[4]。

3.1 主要药物分析

聚类分析是根据事物本身潜在的特性研究对象分类的方法。通过聚类把一个数据集合中的个体按照相似性归成若干类别,使其“物以类聚”,将数据库中的记录划分为一系列有意义的子集[5]。对于36味主要的药物按性味、归经、功效主治进行聚类分析后,获得的分类基本与临床实践相符,但也有部分出入:①白果归到补益药类;②白芍药归到活血药类;③茯苓与人参、五味子归为补益药亚类;④浙贝母、川贝母、瓜蒌与沙参、麦冬归到一类。

经过研习文献,我们发现,以上分类具有合理之处:①白果,虽然归到化痰止咳平喘中,但《本草纲目》中指出“熟食温肺益气、定喘嗽,缩小便”,《本草再新》中说“补气养心,益肾滋阴”,而临床上常配伍五味子、胡桃肉等补肾纳气,配伍熟地黄、山茱萸等补肾固涩,说明其有补、涩之功效。②白芍药常归为补虚药中,然芍药在《神农本草经》中赤、白不分,至陶弘景始分,但后世不少医家认为白芍药具有活血之功效,如《本草求真》明确指出“赤芍药与白芍药主治略同”、《药品化义》云“白芍能补复能泻,专行血海”、《开宝本草》认为芍药“白者止痛散血”等。③茯苓虽然归到淡渗利湿药中,但因其补气健脾之功而常作为补药来使用,自明清始,医家更将其作为补脾阴之药,如《本草化义》中说“甘淡属土,用补脾阴,土旺生金,兼益肺气”,说明与人参、五味子等具有补气生津的共同功效。④浙贝母、川贝母、瓜蒌归为化痰药,而沙参、麦冬归为补阴药,实际上沙参“养肺阴、清肺热、祛痰止咳(《中药志》)”、麦冬“下痰饮(《本草拾遗》)”,可见,此5味药不但有清肺化痰的相同功效,而且均可润肺止咳。综上所述,以现代数理方法所得到的药物分类反而与古人的认识更相近。

从主要的药物选用频次、药物性味归经、主治功效等来看,体现出大多数医家对肺纤维化的病机认识[6-7]:①病位在肺而与脾肾关系密切;②病性属本虚标实,肺脾肾气(阴)亏虚为本虚,痰浊、瘀血、热毒为标实,二者互相影响,互为因果。因此,治疗以补脾肺、补肾精等扶正为主;以活血祛瘀、化痰、清热等以治其标;同时针对肺主气、司呼吸及主宣肃等生理功能,采用宣肺气、降肺气等药以调畅气机,针对喘息选用地龙等药,均符合临床实践。自笔者等提出“本病的病位在肺络,基本病机为肺络痹阻,以通补肺络法治疗肺纤维化”的观点[8]以来,得到了不少同道的赞同,并且从不同的侧面进一步加以发挥和丰富[9-16],而数据挖掘得到活血通络药频次最多,也体现了通肺络的治法已得到众多医家的认同。

3.2 药对(组)分析

关联规则挖掘就是通过关联分析找出数据库中隐藏的知识,利用这些知识可以根据已知情况对未知问题进行推测[17]。在探索药对或药组时,应结合关联规则中支持度、可信度、提升度来考虑。支持度反映了关联是否是普遍存在的规律,可信度反映了关联规则的预测强度,同时满足用户定义的最小可信度和最小支持度阈值的关联规则被认为是有趣的,而提升度反映了关联规则中元素关系的密切程度,>1才有意义。在获得的药组关联规则中,均是有趣的;而在获得的药对关联规则中,“甘草与当归、麦冬与当归、甘草与黄芪、麦冬与黄芪”等不都满足3个条件,因此可以认为是无趣的;同时因甘草“和诸药”,与其他药同时出现的可能性很大,如果出现了关联规则应该视为已知的,所以“甘草、麦冬”也应该视为是无趣的。

结合主要药物使用频次,以补益药和活血药为主,通过对有趣的药组关联规则判读发现,大多数医家喜用益气药黄芪配伍丹参、当归、川芎等活血通络药;而药对关联规则中,益气药黄芪与党参配伍,益气药黄芪分别与丹参、当归、川芎等活血药配伍,而活血药丹参、当归、川芎两两配伍,说明益气活血通络法是众多医家治疗肺纤维化的共识。实际上这些药物经实验证实均有一定的抗纤维化作用,提示我们应将此法作为治疗肺纤维化的基本大法。

由于中医方剂理论体系极其繁杂,充满海量信息,并且方剂的效应评价具有多靶点的特征,因此在方剂研究领域,数据挖掘技术的应用应该引起重视;同时,对挖掘所得到的知识进一步分析和应用验证更为重要。本文作为引玉之砖,质之博雅斧正。

参考文献

[1] 姚美村,袁月梅,艾路,等.数据挖掘及其在中医药现代化研究中的应用[J].北京中医药大学学报,2002,25(5):20-23.

[2] 蒋永光,李力,李认书,等.中医脾胃方配伍规律的数据挖掘试验[J].世界科学技术-中医药现代化,2003,5(3):33-37.

[3] 张万水,陈利国,黄运坤,等.数据挖掘技术及其在中医遣方用药规律中的应用[J].辽宁中医药大学学报,2006,8(4):62-63.

[4] 张俊美,王娜娜.数据挖掘技术在方剂文献研究中的应用现状[J].甘肃中医,2008,21(1):5-7.

[5] 张颖,杨钧,刘建平.数据挖掘在中医药研究中的应用[J].辽宁中医药大学学报,2008,10(3):153-154.

[6] 张娟,闰永建.中医药治疗肺纤维化研究进展[J].山东中医药大学学报, 2009,33(1):81-85.

[7] 赵兰才,武维屏.肺间质纤维化的中医研究进展述评[J].北京中医药大学学报,2000,23(4):70.

[8] 张天嵩,吴银根.通补肺络法治疗肺纤维化理论探讨[J].中医杂志, 2002,43(11):808-810.

[9] 崔红生,邱冬梅,武维屏.肺间质纤维化从络病辨治探析[J].中医杂志, 2003,44(12):946-947.

[10] 蒋宁,武维屏.中医络病学说与肺间质纤维化病机关系初探[J].中国中医基础医学杂志,2003,9(5):21-22.

[11] 陈金亮,王殿华.络病理论与肺纤维化的关系探析[J].中医药学刊, 2004,22(3):407-408.

[12] 翟华强.络病理论与特发性肺纤维化[J].中国中医药信息杂志,2005, 12(10):91-92.

[13] 翟华强.从“肺络”探讨肺纤维化的防治[J].中医杂志,2007,48(5): 457-458.

[14] 崔红生,武维屏,姜良铎.毒损肺络与肺间质纤维化[J].中医杂志, 2007,48(9):858-859.

[15] 姜良铎,张晓梅,肖培新.特发性肺间质纤维化的病因病机探讨[J].中华中医药杂志,2008,23(11):984-986.

[16] 徐志瑛.肺络为病-论肺间质纤维化[J].浙江中西医结合杂志,2009, 19(6):331-332.

数据挖掘技术探讨论文篇5

关键词: 关联规则分析 数据挖掘 数字图书馆

近年来,数据挖掘(data mining,也称知识发现(knowledge discovery in databases,简称KDD),受到当今图书情报领域的广泛重视,其主要目的就是设计算法,用于从海量数据中发现未知的、潜在的、读者感兴趣的有用信息。关联规则是数据挖掘研究中的一个重要的研究课题。

1.关联分析规则基本原理

Agrawal等人(1993年)[1]最先发现了顾客交易数据库中的项集间存在关联规则,其核心方法是基于频集理论的递推方法,它侧重于确定数据中不同属性域之间的联系找出频繁的数据属性域之间的相互关系。定义为:

此后人们对关联规则的挖掘问题进行了大量研究,包括对Apriori算法优化[2]、多层次关联规则算法[3]、多值属性关联规则算法[4]等,以提高算法挖掘规则的效率。

关联规则的挖掘一般可分成两个子问题:①找出所有支持度≥最小支持度阈值的频繁项集。②由频繁模式生成满足可信度阈值的关联规则。第二个问题比较容易,它在第一步的基础上很容易实现,因此关联规则挖掘算法的性能主要由第一个问题决定。因为这个问题的挑战性在于数据量巨大,所以算法的效率是关键。

2.关联规则分析在国内图书馆学领域的应用

关联规则分析经过十几年的发展,目前已经在各个领域广泛应用。从国内已有的研究成果来看,国内图书情报界越来越重视关联规则分析在图情领域各类优化问题的定量应用,并针对不同主题进行了一系列的探讨和研究,涉及的主题主要包括关联规则分析在流通信息、个性化推送、文献计量、信息检索、知识管理等方面的应用。

2.1在流通信息统计中的应用

在读者日常借阅记录事务中,每天都有大量的借还记录汇入数据库中。读者借阅的对象是文献资源,根据长期的读者借阅历史数据,我们会发现读者对文献的借阅存在着一定的关联,不同学科之间也存在着关联,以及不同的读者对文献的借阅存在着一定的模式。挖掘出这些数据之间的关联,有利于合理配置资源和提高资源的利用率,以提高图书馆的服务水平。图书流通量是反映图书利用率的最重要的技术指标,更是反映图书馆服务质量的重要因素。影响图书流通量的因素是纷繁复杂的,这些因素不仅包括馆藏图书种类和数量的多少、借阅方式的差异、读者群体的大小、借阅权限的区分,而且包括由于读者个体间的差异和不同性别、年龄、不同专业及知识层次的读者对读物产生的不同需求。显然,在上述复杂而又相关的各因素中,既有大量已知信息,又有不少未知信息、非确知信息。图书流通系统的这种既含有已知信息,又含有未知的、非确知的信息,实际上是一种灰色系统[5]。关联规则的挖掘可以发现图书馆流通数据库中一组借阅书籍之间某种关联关系的规则,其作用在于对图书流通的关联性分析和相关借阅图书的推荐。这样可以优化图书馆馆藏结构、馆内书籍分布,不仅可以帮助师生的学习教研工作,甚至可以发掘不同学科间的隐藏联系[6]。

珵继华[7]等认为多维数据空间数据的稀疏性,在低层或原始层的数据项之间很难找出强关联规则。在较高的概念层发现强关联规则很可能提供普遍意义的知识。而多层关联规则挖掘是直接面向海量数据库系统的,这类数据库通常有上百个属性和数百万个记录,并且数据表之间包含复杂的关系,这就必然导致数据挖掘过程中搜索维数和搜索空间的激增,利用高性能分布式计算机设计分布式多层关联规则算法来进行高效的分布式挖掘已经成为当前数据挖掘的一个迫切需要解决的问题。

聂珍[8]在分析单数据库多层关联规则算法SMAM的基础上提出了分布式多层关联规则挖掘算法PMAM,使得其具有较高的分布式特点。在PMAM算法中利用全局频繁与局部频繁之间的关系减少候选集,并利用概念间的层次关系及项集长度的分布规律对事务表进行约减。这样可使算法的效率得到提高,改善了内存的使用率。

2.2在个性化推送中的应用

未来图书馆的发展趋势是数字化的,然而目前,国内图书馆技术与应用基础薄弱,起步较晚,网络个性化服务发展更是滞后,其应用仍处于初始探索阶段。鉴于数据挖掘技术在数据的组织、分析与发现等方面存在巨大的潜力,学术界普遍认为它可为数字图书馆的个性化服务提供关键技术。

图书推荐服务是图书馆个性化服务的一种,在图书馆巨大的馆藏资源中,每个读者感兴趣的只能是其中的一小部分,如何高效率地找出对读者有用的书目是图书馆学要研究的问题[9]。数字图书馆个性化服务是基于用户的行为、习惯、偏好、特点及特定需求,向用户提供满足其个性化需求的信息内容和功能的一种服务[10]。

鲍静[11]运用Apriori算法通过对读者借阅数据的关联挖掘,挖掘出各年龄层次、各职业、各学历层次及不同职称的读者对图书馆图书资源利用的关联规则,并引入兴趣度,对挖掘出的关联规则做进一步分析,分析正相关关联规则、负关联规则,并根据兴趣度来分析规则的有效性,提出了基于关联挖掘的读者个性化服务模型,由借阅记录数据库、数据挖掘引擎、图形用户界面、匹配器、规则库等部分组成。

韩开来[12]等利用读者五年内书籍的借阅数据,在Apriori关联挖掘算法的基础上,对事务集中每个项集按每个项的最小支持度从小到大排列有序,最小支持度的值采用根据每个项的值结合用户指定的最小支持度上限和下限来计算。针对新书推荐特点,采用新书推荐关联规则挖掘隐藏在借阅历史数据中的有价值的信息。为个性化服务平台的构建打下基础;转换图书馆的服务模式,由被动转为主动,建立以读者为中心的个性化服务体系。

2.3在文献计量中的应用

在文献计量学的研究中,通常需要通过定量分析以确定核心期刊、核心作者、核心情报源等等。对最优目标或某种具体要求的量化数据列,即标准数据列或最优数据列,来源一般有两种方式[13],一种是人为指定,另一种是从被分析的项集合的指标值中选取最优值。用关联分析法进行处理,相较其他方法具有更为广泛的适用性,只要是由某些指标数据来对目标项或要求进行优化排序的均可用此法。方法简单,原理直观明了,计算量较少,对指标因素无任何限制,因此应用广泛。

科学文献的编排格式为文献计量学提供了可统计的外部特征。邹常诗[14]从引文、关键词、分类号等外部特征入手,采用文献计量方法分析了文献的关联性——相关文献群和相关著者群,并阐述了两个相关群的实际应用。

杨代庆等[15]分别从合著者、共关键词、共引三个角度对来自于万方数字化期刊群、SCI、EI的院士期刊文献进行关联性分析,通过期刊及院士作为媒介,最终映射到学部之间的关联关系。根据生成的关联图从关联广度、关联孤立性、关联强度分析了学部之间的关联程度及原因,并揭示了作为合著者的外部文献特征与作为关键词、共引的内容特征在学部关联性上的差异。

曹志杰[16]等提出了基于共词分析的隐性关联知识发现方法,用于发现这些尚未被发现的联系或复现这些被主观隐藏的特定联系,揭示出技术发展动向,以提高情报研究质量和情报工作地位。

徐慧[17]等利用频数统计、关联规则算法,对中国中医药期刊文献数据库中1984~2007年病毒性心肌炎文献涉及的主题词和副主题词进行分析,抽取隐含规律,为病毒性心肌炎的临床诊疗及科研提供思路。

2.4在信息检索中的应用

金玮[18]等针对Web信息检索系统在海量数据下的服务质量和效率问题,讨论了数据挖掘技术在Internet信息检索中的运用,在经典的关联规则算法研究基础上,通过引入多维链表结构,提出了利用事务集合匹配运算和链表操作高效地挖掘关联规则的算法ARMLL用于提高Web信息检索质量。实验结果表明该算法是可行的,有较高的效率。

黄名选[19]等以关联规则挖掘技术的发展为主线,将目前的研究方法归纳为五类:项无加权关联规则挖掘、项加权关联规则挖掘、项完全加权关联规则挖掘、负关联规则挖掘和增量挖掘,对这五类挖掘技术进行整体性阐述和比较性研究,指出了挖掘技术的局限性。

刘俊熙[20]认为搜索引擎以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,对搜索引擎的相关技术(搜索技术、索引技术、检索技术和接口技术)进行关联分析。

于春[21]等介绍相关性是信息检索科学的核心概念,用户观点则是相关性研究的主要观点;从用户角度研究相关性理论,以试验法为研究方法,力图证明存在一个核心的、可以跨不同用户类型、问题情境和信息源环境的关于信息用户在信息需求检索中的相关性判断的因素集,以此阐述如何提高信息检索的准确率,指导信息用户能够及时、准确地查找到所需信息。

2.5其他方面

除以上几个方面外,关联分析还应用在图书馆学领域的诸多方面。有的学者运用灰色关联度分析法对所调研图书馆读者满意程度进行对比分析,并进一步对读者满意度评价指标进行灰色关联分析,得出影响图书馆读者满意度的主要指标[22]。还有学者将关联规则分析应用在期刊评价、馆藏建设、专利分析等方面。

3.关联规则分析在国内图书馆学领域应用的总结和思考

从关联规则分析在国内图书馆学领域应用的文献数量来看,国内学者越来越重视这种分析工具的应用。从近年来文章的主题来看,关联规则分析在国内图书情报领域应用的研究主要集中在以下几个方面:(1)在流通信息统计中的应用;(2)在个性化服务推介方面的应用;(3)文献计量分析;(4)信息检索方面的应用;(5)读者满意度满意度评价,此外还包括期刊评价、馆藏建设、专利分析、编目规则、文献采访、学科馆员选拔、知识管理和竞争情报等。

通过对国内研究的分析,可以看到该主题的研究越来越丰富,应用越来越广泛,既有理论研究,又有实践探讨。但是同国外相比,国内的理论探讨不够深入,实证研究相对比较少,因此不论从理论还是实践上都需要向国外借鉴和学习。

参考文献:

[1]Agrawal R,Srikant R.Mining association rules between sets of items in large databases[A].Prco ACM SIGMOD Int’l Conf Management of data[C].Washington DC, May,1993:207-216.

[2]Agrawal R,SrikantR. Fast algorithms for mining association rules[A].Prco 20th Int’l Conf Very Large Database[C].Santiago,Chile,Sept,1994:487-499.

[3]Srikant R,Agrawal R.Mining generalized association rules[A].Proceedings of the 21th International Conference on Very Large Databases[C].Zurich,Switzerland,Sept,1995:407-419.

[4]尹阿东等.基于数值属性的关联规则挖掘算法[J].微机发展,2003(4):67-70.

[5]高波.对高校图书流通的灰关联法分析[J].辽宁师范大学学报(自然科学版),2001(03):327-330.

[6]王磊,刘东苏.关联规则挖掘在图书馆信息服务中的应用[J].情报杂志,2008(2):154-158.

[7]珵继华,施鹏飞.多层关联规则的有效挖掘算法[J].软件学报,1998(12):937-941.

[8]聂珍.分布式多层关联规则在图书流通优化中的应用[J].科技情报开发与经济,2008(22):1-3.

[9]夏南强,张红梅.基于数据挖掘的数字图书馆个性化服务[J].图书馆学研究,2006(1):32-34.

[10]马文峰.数字图书馆个性化信息服务检索[J].图书馆杂志,2003(4):65-67.

[11]鲍静.关联规则挖掘及其在图书流通数据中的应用研究[D].合肥工业大学,2007.

[12]韩开来.关联规则在图书馆新书推荐中的研究[J].科技信息,2008(6):10-13.

[13]李荫涛.关联分析法在情报学中的应用.情报理论与实践,1990(1):5-8.

[14]邹常诗.科学文献计量分析与文献关联性研究[J].情报资料工作,2000(4):18-20.

[15]杨代庆等.从院士期刊文献对学部关联度的挖掘探索[J].情报杂志,2009(8):26-29.

[16]曹志杰,冷伏海.共词分析法用于文献隐性关联知识发现研究[J].情报理论与实践,2009(10):99-103.

[17]徐慧等.病毒性心肌炎主题词和副主题词关联规则分析[J].世界科学技术:中医药现代化,2009(4):593-596.

[18]金玮等.Web信息检索技术中关联规则挖掘算法应用研究.情报杂志,2007(01):39-42.

[19]黄名选,陈燕红.关联规则挖掘技术研究[J].情报杂志:2008(4):119-121,115.

[20]刘俊熙.搜索引擎的搜索、索引和检索技术的关联分析[J].图书馆学研究,2005(09):84-86.

[21]于春等.信息用户对信息检索相关性判断的因素分析.图书情报工作,2009(03):103-107.

数据挖掘技术探讨论文篇6

关键词:数据挖掘;教务管理;决策支持

中图分类号:G647 文献标志码:A 文章编号:1674-9324(2014)13-0010-03

近年来,随着高等学校扩招以及计算机在管理中的普及应用,学校教学管理系统积累了大量的数据。目前,这些数据只是用于简单的成绩分析,并未能充分用于规律分析和处理,未在学校管理和决策起到应有的作用。因此,利用数据挖掘技术对学生成绩数据进行深层次分析,找出其中各种潜在模式及影响因素,将对学生选修课个性化管理、课程设置、教学计划制订和教学实践有重要的指导作用[1-3]。本文针对高等院校教学管理系统普遍存在的问题,提出了将数据挖掘技术应用到本科生成绩管理、分析和实践,通过从学生成绩数据中挖掘潜在的、有用的信息,目标是为教学管理者提供决策,为学生选课提供支持。

一、数据挖掘的概念

1989年,在第11界国际人工智能的专题研讨会上,学者们提出了基于挖掘的知识发现(KDD)概念。1995年在美国计算机年会上,一些学者开始把数据挖掘视为数据库知识发现的一个基本步骤或把两者视为进义词讨论[4,5]。所谓数据挖掘(Data Mining),就是从大量、不完全、随机的实际应用数据中,提取隐含的、未知的、具有潜在应用价值的信息和知识的过程。其主要特征表现为:数据源必须是真实的、大量的;挖掘加工出用户感兴趣的知识;形成的知识要可接受、可理解、可运用。通过数据挖掘,可以帮助决策者寻找规律,发现被忽略的要素,预测趋势,并用于决策。数据挖掘是对数据内在和本质的高度抽象与概括,是对数据从感性认识到理性认识的升华。数据挖掘又被称为知识发现(Knowledge Discovery,KD),因此许多知识发现中的算法,如人工智能,也常常被使用于数据挖掘过程中。数据挖掘一般以下7个步骤:(1)数据清理:消除噪声和不一致数据。(2)数据集成:可以把多种数据源组合在一起,将数据结果放在数据仓库中。(3)数据选择:从数据库中提取与分析任务相关的数据。(4)数据变换:通过汇总或聚集操作把数据变换或统一成适合挖掘的形式。(5)数据挖掘:使用智能方法提取数据模式。(6)模式评估:根据用户某兴趣度度量,识别表示知识的真正有趣的模式。(7)知识表示:实用可视化和知识表示及技术向用户提供挖掘的有用知识。

二、数据挖掘技术在本科教学管理中的应用

大学本科教学管理,一般涉及了学生成绩管理、选课管理、学生评教等几部分内容,其实质上也是一个数据分析、加工利用和决策管理的过程。因此,利用上述数据挖掘的方法,对大学本科教学管理数据进行深层次的分析,可以将人们对数据的应用从低层的数据查询提升到决策支持、信息预测,在教学管理的诸多方面发挥着重要作用。

1.本科生成绩的挖掘加工。学生成绩是评价教学质量的重要依据,也是评价学生对所学知识掌握程度的重要标志,在高等教育质量评价中居于重要位置。所以通过对学生的成绩进行分析和挖掘,可以为教学管理者提供改善教学条件,加强教学管理,深化教学改革,提高教学质量等方面的重要依据。利用数据挖掘技术,通过不同范围、不同角度分析学生的成绩和分布规律,挖掘影响学生成绩的因素。主要包括:①统计分析各门课程成绩分布,包括最高分、最低分、及格率等;分析各门成绩之间的关系。②按班级分析学生成绩分布,以及影响班级成绩的因素。生成各年级成绩分布情况排名,年级成绩分布曲线。③不同任课教师给予的学生平均成绩;学生成绩与教师学历、职称,教学经验之间的关系。④各生源地成绩分布,生源地与学生成绩间的关系。利用关联分析或分类分析,可以发现一些普遍性的现象。如通过分析学生的成绩,可能发现“高等数学”成绩好的学生,其在计算机语言类课程的成绩也好。但这种分析,也可能导致对暂时不具有普遍性课程的忽略。

2.学生选课信息的挖掘分析。选课就是学生利用计算机软件选择自己所上的课程。选课数据中可能隐藏着对教学管理具有重要的参考价值,数据挖掘技术可以用来找出这些隐藏在数据背后的信息和知识。主要可从以下几个方面进行分析挖掘:分析各门课的课程归属和所占学分,确定学生选课时对不同课程归属课的学分多少的考虑;分析各门课的选课人数,确定课程的欢迎程度;分析各门课选课率,了解学生对目前课程安排中的满意程度;分析某门课程的选课学生情况,了解选择当前课程的学生的专业情况;分析各门课程的任课教师情况,了解任课教师的实际情况和综合能力。具体的挖掘步骤可按如下进行:①首先要对选课的原始数据进行预处理,把其原始数据采样后转换成适合数据挖掘的数据。由数据收集阶段得到的数据可能有一定的“污染”,表现在数据可能存在自身的不一致性,或者有缺失数据的存在等,因此要进行抽样与清理。在处理的过程中,要明晰数据的上下结构和面向对象,为数据挖掘作好准备。②完成数据的预处理之后,确定参与挖掘的数据表,在教务选课系统中学生选课表是基本事实表,课程信息表、学生信息表和教师信息表可作为维表。③最后将预处理之后的数据进行状态运行,在此基础上选择合适的数据挖掘算法进行数据挖掘。数据挖掘通过汇总或聚集操作将数据变换或统一成适合挖掘的形式,可单独利用也可综合利用各种数据挖掘方法对数据进行分析,挖掘用户所需要的各种规则、趋势、类别、模型等。挖掘的最终结果可以用可视化的图形方式表现出来。根据挖掘的结果,得出选课背后隐藏的各种数据信息,如某些专业的学生喜欢选某位老师所开设的相关课程,部分学生总是选择学分较多的有更多上机机会的课程等等。

3.学生评教信息挖掘分析。合理评价教学的技术水平是衡量一个学校教育质量的重要标准。教学评价就是根据教学目标和教学计划的要求,系统全面地收集数据,对教学过程中的教学活动以及教学成果给予判断的过程。评教内容一般包括对学生“学”的评价和对教师“教”的评价。下面以学生综合测评指标和学生评教指标为例,将关联规则和粗糙集理论应用于评价系统,通过对各指标的排序、约简等,在一定程度上对评价指标优化,讨论把数据挖掘技术引入学生评教指标优化和信息分析。另一方面,评定学生的学习行为,既可对学生起到信息反馈和激发学习动机的作用,又是检查课程计划、教学程序以至教学目的的手段。同时,考查学生个别差异,便于因材施教的途径。评价要遵循“评价内容要全面、评价方式要多元化、多次化、注重自评与互评的有机结合”的原则。利用数据挖掘工具对学生的学习成绩数据库、行为记录数据库、奖励处罚数据库等进行分析处理,可以及时得到学生的评价结果,对学生出现的不良学习行为进行及时指正。同时,还能够克服教师主观评价的不公正、不客观的弱点,减轻教师的工作量。另外,将关联规则运用于教学评价数据中,可以探讨教学效果的好坏与教师年龄、职称之间的关系、学生各项素质指标之间的关系等,用来及时地对教师的教学和专业发展以及学生的学习和个性发展提供指导,这是非常有意义的。

4.教师信息的挖掘分析。教师信息是本科教学管理中的重要方面,如使教学评价过程科学化,增强教学工作的预测功能和评价功能,为教学的客观决策和客观评价教师、了解教师的教学质量提供了一种比较合理的管理依据。主要包括:①教师个人信息:包括教师学历情况、职称情况、科研情况、研究方向、级别、工作经历等各种信息,可运用关联规则方法对教学评价结果和教师个人信息一起进行挖掘,从而得出影响教学结果的潜在的教师个人信息的部分情况。②教师素质:包括教师的思想政治素质、道德素质、文化素质、智能素质、心理素质、身体素质、外在素质等七个方面,通过数据挖掘技术在学生成绩或者相应的调查信息的挖掘,看出哪些因素对教学方面有较大影响,切实加强教师在哪些素质方面的培养和提高,从而有利于教学管理方法的制定和实施。③教师绩效:包括教师的工作业绩、工作态度、工作技能等方面的综合考核。应用数据挖掘技术,可以从教学评价数据中进行数据挖掘,查询教学效果与教师的工作态度、工作技能等的各种关联,找到教师的教学效果与教师绩效的关系问题,合理调配一门课程的上课老师,使学生能够较好地保持良好的学习状态,从而为教学部门提供了决策支持信息。

我国高校的教学管理长期沿用经验管理模式,往往难以避免管理滞后的弊端,尤其是近年来随着教学管理中产生的数据急剧增加以及对信息量的更高要求,把数据挖掘技术应用到教学管理系统中,必将为各教学管理部门的决策提供切实可行的依据,可以促进教育管理的进一步改革、完善和发展。对数据挖掘工具的有效利用,能够客观地反映教学系统中存在的问题,为实现高校的教学改革,将来在激烈的竞争中掌握主动,从而提高管理的科学性、针对性和高效率。

参考文献:

[1]梁循.数据挖掘算法与应用[M].北京:北京大学出版社,2006.

[2]刘晓霞.数据挖掘技术在高校教学中的应用[J].现代计算机,2008,(285):115-116.

[3]张玉林.数据挖掘技术在教学过程中的指导作用[J].西安通信学院学报,2006,(02):38-40.

[4]陈文伟.数据仓库与数据挖掘教程[M].北京:清华大学出版社,2006.

[5]杨永斌.数据挖掘技术在教育中的应用研究[J].计算机科学,2006,(12):284-286.

数据挖掘技术探讨论文篇7

[关键词]大数据数据挖掘 设备管理

中图分类号:TP311 文献标识码:A 文章编号:1009-914X(2015)05-0265-01

近些年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用,包括商务管理,生产控制,市场分析,工程设计和科学探索等。

数据挖掘利用了来自如下一些领域的思想:(1)来自统计学的抽样、估计和假设检验;(2)人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。数据挖掘也迅速地接纳了来自其他领域的思想,这些领域包括最优化、进化计算、信息论、信号处理、可视化和信息检索。在一些其他领域也起到重要的支撑作用,特别是需要数据库系统提供有效的存储、索引和查询处理支持,源于高性能(并行)计算的技术在处理海量数据集方面常常是重要的。分布式技术也能帮助处理海量数据,并且当数据不能集中到一起处理时更是至关重要。

1 数据挖掘技术简介

数据挖掘(Data Mining,DM),又称数据库中的知识发现(Knowledge Discover in Database,KDD),是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程[1]。因此,可以说数据挖掘是一个从数据到知识的过程。

数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。

2 数据挖掘运用的理论与技术

随着信息科技超乎想象的进展,许多新的计算机分析工具问世,例如关系型数据库、模糊计算理论、基因算法则以及类神经网络等,使得从数据中发掘宝藏成为一种系统性且可实行的程序。

数据挖掘的技术有很多种,按照不同的分类有不同的分类法。数据挖掘中常用的一些技术:统计技术,关联规则,基于历史的分析,遗传算法,聚集检测,连接分析,决策树,神经网络,粗糙集,模糊集,回归分析,差别分析,概念描述等十三种常用的数据挖掘的技术[2]。下面,作者将就关联规则做以介绍。

3.关联规则概念

关联规则(Association Rules)挖掘就是从大量的数据中挖掘出有价值描述数据项之间相互联系的有关知识。数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。一个关联规则[3]是形如的蕴含式,这里A、B为项集,AR,BR,并且AB=Φ。

关联规则挖掘的目的就是从事务数据库中挖掘出满足最小支持度(min_sup)和最小置信度(min_conf)的关联规则,挖掘一般分为以下2个过程:1.在事务数据库中找出所有大于最小支持度(min_sup)的频繁项集。2.由第一步找出的频繁项集产生期望的关联规则,即所产生的每条关联规则的置信度必须不小于最小置信度Apifori算法。

4.数据挖掘技术在设备管理中的应用

本文将利用关联规则算法对某公司售后服务部门所使用的设备管理数据进行挖掘。

结合一年来该公司现场执法取证类设备在使用过程中暴露出现的故障问题及设备维护保障等情况的统计数据,应用数据挖掘技术进行分析。原始数据集由该公司设备维护管理系统中的设备名称、使用单位、维护记录、更换部件、故障排查方法等有关数据字段抽取并汇总。

根据实际情况,假设支持度为0.2,采用Apriofi算法,产生的最大频繁项目集见表3。由试验结果可以看出,D:电容失效;F:数据端出错;G:调频键失效;J:电压过载;K:插脚脱焊。发生故障的概率比较高(在20组数据中,发生故障的概率达到20%以上)。

依据产生的频繁项生成关联规则,结果见表4。如果设定最小信任度为0.6,那么从表4可以得出3条关联规则,分别为:D-->F;D-->G;F-->G。

对应到该取证设备故障为:电容失效-->数据端出错;电容失效-->调频键失效;数据端出错-->调频键失效。

2014年7月,该单位要执行一项任务,按公司领导要求调用该现场取证执法仪类设备12套。为证明上述结论的有效性,将这12套设备分为2组,每组6套,分别为A组和B组。其中A组在投入使用前,根据结论对相关的部位进行预防性维护,而对B组则按常规维护,不做任何维护。经过1天24小时不间断使用,结果发现,A组中6套设备全部正常运行,且状态良好;而B组中则有2套设备出现调频键失效故障,1套设备相继出现电容失效、数据端出错故障,影响了取证的工作。由此得出,应用关联规则对设备的系统数据进行挖掘,对于优化设备的性能,提高设备在实战中的稳定性,确保任务顺利完成具有重大意义。

5.结语

数据挖掘现在越来越为更多的人们所关注,被认为是未来最有发展前景和广阔市场潜力的新兴学科之一。随着信息技术和数据库技术的不断发展,各行各业的人们掌握了大量的数据,在竞争日益激烈的现今社会里,如何迅速有效的获得隐藏在数据之后的有用的知识信息,成为众多企业决策者和管理者的当务之急。

数据挖掘是一门综合性的学科,其中用到了数据仓库、数理统计[4]。计算机技术等很多知识,不同的主题需要选择不同的方法进行分析,经过十多年的研究,每一种方法都踊跃出大量的算法,这些算法中也各有利弊,在不同的问题上要选择不同的算法,才能最大限度的发挥数据挖掘的潜能。

此外,数据挖掘除了发展和完善自己的理论和方法,也要充分借鉴和汲取数据挖掘和知识发现、数据库、机器学习、人工智能、数理统计、医疗、分子生物学等学科领域的成熟的理论和方法。

参考文献

[1] 韩家炜,堪博著,范明,孟小峰译数据挖掘概念与技术(第2版)[M]北京:机械工业出版社,2007.

[2] 苏新宁杨建林邓三鸿等,数据挖掘理论与技术[M]北京:科学技术文献出版社,2003.

[3] 梁循数据挖掘算法与应用北京大学出版社,2006.

数据挖掘技术探讨论文篇8

Shi Ran

(Jiangsu University of Science and Technology Department of Business,Zhangjiagang 215600,China)

摘 要:本文从数据挖掘的概念与过程出发,阐明证券分析中的挖掘主题和方法,具体阐述了数据挖掘技术在证券分析中的应用领域,并对旅游上市公司证券的聚类分析做了实证研究。

Abstract: This article begins with the explanation of the concept and the process of data mining. It expounds themes and methods of mining in securities analysis,and describes the fields of application of data mining in securities analysis in detail. At the end,the assay takes an empirical study in cluster analysis on the securities of public companies in the tourism industry.

关键词:数据挖掘 证券分析 聚类分析

Key words: data mining;securities analysis;cluster analysis

中图分类号:F832.5文献标识码:A文章编号:1006-4311(2011)21-0127-02

1数据挖掘概述

随着国内证券行业政策的逐步开放,证券行业的竞争越来越激烈,分析决策时对数据的依赖性和敏感度也越来越高。数据挖掘技术作为分析与辅助决策工具已经得到越来越多的重视。

1.1 概念数据挖掘(data mining)是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、潜在有用的信息和知识的过程①。从商业应用角度看,根据预定义的商业目标,对大量的企业数据进行探索和分析,揭示其中隐含的商业规律,并进一步将其模型化的先进有效的技术过程②。数据挖掘是一门交叉学科,它集成了许多学科中成熟的工具和技术,包括数据库技术、统计学、机器学习、模型识别、人工智能、建模技术、电子技术、信息技术等等。

1.2 数据挖掘过程①定义问题:清晰地定义出业务问题,确定数据挖掘的目的。②数据准备:包括:选择数据――在大型数据库和数据仓库目标中提取数据挖掘的目标数据集;数据预处理――进行数据再加工,包括检查数据的完整性及数据的一致性、去噪声,填补丢失的域,删除无效数据等。③数据挖掘:根据数据功能的类型和和数据的特点选择相应的算法,在净化和转换过的数据集上进行数据挖掘。④结果分析:对数据挖掘的结果进行解释和评价,转换成为能够最终被用户理解的知识。⑤知识的运用:将分析所得到的知识集成到业务信息系统的组织结构中去。

2数据挖掘在证券分析中的应用

2.1 证券分析中的挖掘主题①关联分析:证券市场与汇率、利率、国民经济发展的关联分析;单一证券和整个证券市场的关联分析;探讨股价之间的关联度,不同行业的股票关联分析等。②技术指标分析:对各种指标的排序、分类,研究其对股票操作的重要程度。③在线多维分析:基于OLAP技术,在线成交量分析、板块分析,预测结果验证等。④投资分析:基于序列模式方法,研究股价的变化规律,未来行情走势;对股票作聚类研究,合理分类;探讨不同投资组合效果,提出投资组合方案;作出收益和风险的评价等。

2.2 证券分析中的数据挖掘方法①决策树(Decision Tree)方法;②人工神经网络(Artificial Neural Network)方法;③遗传算法(Genetic Algorithm);④统计学(Statistics)方法;⑤粗集(Rough Sets)方法;⑥概念树(Conception Tree)方法;⑦联机分析处理(On Line Analysis Processing);⑧模糊集方法。

2.3 数据挖掘技术在证券分析中的应用领域证券投资分析分为基本分析法、技术分析法和组合分析法三大类。在长期的实践和研究的基础上人们总结出了一套技术分析方法,这些方法基本上是建立在统计基础上的,如移动平均线法、点数图法、K线图法等,这是分析和预测股价变化方向和趋势的基本方法。人们发现股票价格不仅反映了信息,还反映了噪音,出现了许多诸如市场过度反应等异常现象,从而认为股票市场可能并没有人们所假设的那样有效,促使人们重视股票的内在价值。股票计价模型通过计算所得的股票内在价值与其实际市价相比较,可以发现股价是高估了还是低估了。上市公司的财务报表,提供了反映公司经营情况及财务状况的各种不同数据及相关信息,而根据会计制度的规定,重要财务数据、报表等必须保留十年以上③。除了大量时间跨度性很长的数据,证券分析不仅需要企业内部的数据,也需要外部数据,不仅需要当前数据,也需历史和未来发展的数据,不仅需要反映企业生产经营活动的有关数据,而且也需要市场、物价、金融、投资等有关方面的数据。因此,数据大量化甚至海量化。此外,证券分析不能单一地对某些科目关注,而应将公司财务报表与宏观经济面一起进行综合判断,与公司历史进行纵向深度比较,与同行业进行横向宽度比较,把其中偶然的、非本质的东西舍弃掉,得出与决策相关的实质性的信息,以保证投资决策的正确性与准确性。解决这么多且具有不同特点的数据,需要一个有效的知识发掘工具。数据挖掘技术善于对海量数据进行集中、存储、归类、重组、分析、查询等处理,同时对各项数据进行多角度、多层次的分析与观察,进行量化的分析和论证,发现数据中存在的潜在关系和规则,根据现有的数据预测未来的发展趋势。

2.3.1 聚类分析通过横向(财务指标)聚类提炼出有效反映上市公司经营状况的指标,确立反映企业盈利、偿债、营运能力的“浓缩指标”。通过纵向(上市公司)聚类,从中将上市公司按风险―收益配比特性划分类型,以利于投资者根据自己的资产状况和投资风格确定投资方向和目标。一方面,通过聚类分析可以判断出绩优的类和绩差的类,高成长的类和低成长的类。由此投资者可在某一类或几类中确定投资范围,提高了投资决策的效率和准确性。另一方面,从聚类的结果中得出类的均衡价格水平,预测股票的价格趋势。低于这一价格水平的,其当期市价与均衡价格的差距就是该股票价格可能的上涨空间。投资者若把握时机对这类股票进行长期投资,则承担的风险较小,获利的可能性较大。相反,若高于类的均衡价格水平,其股价就存在下滑的趋势。

2.3.2 时间序列分析一系列的股票历史价格其实就是一个时间序列,因此在股票预测中可以借助时间序列分析方法。利用历史交易数据和时间序列方法,分析各种类别股票或个股的价格对各类信息的影响变动敏感度,寻找较准确预示股票价格走势的技术分析指标集合或组合。从历史各个时间间隔的股票价格涨跌、交易量变动的交叉信息中,分析出大众的投资心理和投资倾向。在股票预测常用的时间序列分析法主要是建立自回归模型(AR)、移动平均模型(MA)、自动回归-移动平均模型(ARMA)和齐次非平稳模型(ARIMA),其中ARIMA 是较成熟的模型,常用来对股价(最高价、最低价、开盘价、收盘价)及综合指数进行预测,通过选择模型的参数和辨识模型的系数实现对时间序列拟合好的模型对未来进行预测。

2.3.3 关联规则分析关联规则挖掘即在数据中查找存在于项目集合之间的频繁模式、关联、相关性或因果结构④,该方法分析各种股票价格变化的关联特性,从而确定有效的投资组合。

2.3.4 其他分析目前,数据挖掘技术在证券分析中应用的方向主要有:交易数据分析、趋势预测分析、投资组合分析、风险分析、客户分析、客户管理、财务指标分析等。比如:利用数据挖掘分类、预测等技术根据企业过去、现在的财务信息判断目前的财务状况、预测未来的财务状况;利用回归、神经网络等技术根据收集到的企业信息资料,判断企业未来发生财务危机的可能性;利用分类、聚类、生存周期等技术跟踪不同客户的行为特征,确定不同客户群,针对不同客户实施差异化的营销策略;通过分类等技术跟踪原料的供货信息,并收集相关企业信息,选择最优的供应商;利用预测、关联等技术在众多项目中选择最有价值的项目,实现资金效率最大化等。

3实证研究

刘亭立(2005)⑤在以旅游上市公司公开的报表信息为基础,汇总了1994年至2003年的经营数据,在此基础上,利用SPSS统计软件工具对旅游业上市公司进行了行业内的对比分析,在选择业绩评价指标时,并未采用先入为主、预先设定的传统方法,而是通过因子分析技术挖掘数据的内在关联性,选择出四个影响业绩的综合因素,从而避免了人为的主观性,较为客观地说明我国旅游上市公司的经营状况与业绩表现。刘立秋,赵黎明,段二丽(2007)⑥在研究国内外已有的评价体系的基础之上,选择了反映上市公司的盈利能力、偿债能力、营运能力、成长能力的10个指标,构建上市公司经营业绩评价指标体系。文章选择了旅游板块的上市公司作为研究样本,所有指标来源于各公司2004年年报。

在证券分析过程中,人们往往根据上市公司所在行业的相似性,将它们划分成不同的板块,这有利于投资者选择合适的证券。现在,用SPSS软件对后者的评价得分数据为指标做k-means聚类分析,将32家公司分为四类,结果如表1。

由结果可以看出,丽江旅游为第一类,总体最优,得分明显高于其他的类;而S*ST一投为第四类,总体最差,得分大大低于其他的类;中间有28个企业为第二类,2个企业为第三类,基本上是呈正态分布。而在第二类中,仍是有超过四分之一的得分为负数,也不太适合投资者。当然,我们在具体的投资过程中可以结合其他指标对证券做聚类分析,以辅助作出投资的决策。我国旅游上市公司的经济效益存在较大的异质性,从我国国民经济的发展态势及发达国家旅游业发展的经验来看,我国旅游业发展还有很大空间,所以目前已上市的旅游企业更应该珍惜上市资源,将旅游业做强,实现旅游上市公司持续健康发展之路。

4结论

数据挖掘高度自动化地分析数据,做出归纳性的推理,从中挖掘出潜在的模式,在证券分析中的应用前景广阔。无论是对股民了解股市走势和做出正确投资决策,对经济学家分析不同层次用户投资行为和各种股票之问的关系、及时发现股市中的非正常行为,对各上市公司调整市场策略,探测风险,对政府部门出台新的方案等,都具有重要参考价值。

注释:

①杨永斌.数据挖掘技术在证券业中的应用[J].重庆工商大学学报(自然科学版),2005,(10):461-463.

②张静妙,刘金媛,高红伟.数据挖掘在证券业中的应用研究[J].商业时代,2007,(22):73、85.

③郑楼英.数据挖掘技术在会计信息系统中的应用初探[J].财会研究,2007,(6):39-41.

④徐晓峰,黄林鹏,顾锡康.关联规则挖掘在证券业个性化服务中的应用[J].计算机工程,2005,(10):214-216.

⑤刘亭立.旅游业上市公司经营业绩分析与评价[J].旅游学刊,2005,(4):92-96.

⑥刘立秋,赵黎明,段二丽.我国旅游上市公司经济效益评价[J].旅游学刊,2007,(4):79-83.

参考文献:

[1]杨永斌.数据挖掘技术在证券业中的应用[J].重庆工商大学学报(自然科学版),2005,(10):461-463.

[2]张静妙,刘金媛,高红伟.数据挖掘在证券业中的应用研究[J].商业时代,2007,(22):73、85.

[3]郑楼英.数据挖掘技术在会计信息系统中的应用初探[J].财会研究,2007,(6):39-41.

[4]徐晓峰,黄林鹏,顾锡康.关联规则挖掘在证券业个性化服务中的应用[J].计算机工程,2005,(10):214-216.

[5]刘亭立.旅游业上市公司经营业绩分析与评价[J].旅游学刊,2005,(4):92-96.

[6]刘立秋,赵黎明,段二丽.我国旅游上市公司经济效益评价[J].旅游学刊,2007,(4):79-83.

[7]孙菊生,周建波.会计信息在证券市场中的作用――信息观、计价模型观和计量观[J].当代财经,2003,(4):109-112.

[8]王理,王晓红,高洪深,吴永林.基于数据仓库的数据挖掘在证券行业的解决方案[J].数量经济技术经济研究,2003,(11):110-113.

[9]王君波,杨义群.欧阳浙江聚类分析在证券投资中的应用[J].商业研究,2003,(22):102-104.

[10]甘卫平.数据挖掘技术在管理会计中的应用[J].财会通讯・综合版,2006,(1):34.

上一篇:小学信息技术范文 下一篇:数据挖掘技术研究范文