解析数据挖掘中的聚类分析及其在控制中的应用

时间:2022-10-14 01:28:01

解析数据挖掘中的聚类分析及其在控制中的应用

摘 要:从大量的数据中,挖掘出有价值知识的方法称之为数据挖掘,它在或即将在工业、农业、教育、学术等诸多社会领域得到广泛的重视。数据挖掘包括诸多方面,如频繁项集挖掘、分类、离群点检测等。而聚类分析是一个重要领域,根据一定的规律与要求,对事物进行洞察分析,并且随着模糊数学、概率论、统计理论等的深入研究,开始用各种数学方法讨论一些聚类问题。本文主要探讨了模糊聚类分析的应用。

关键词:模糊数学;聚类分析;数据挖掘

中图分类号:TP311.13

聚类分析是一种科学的数学方法,是按照一定的要求和规律,对事物进行分类分析,属于数量统计多元分析的一个分支。随着数据挖掘技术的发展,在大量未知数据分类中,聚类分析得到了很好的应用[1]。由于在分类过程中,常常应用模糊数学方法,使得聚类分析显得尤为自然,与实际相符合。模糊聚类分析,可对事物的特征、相似性和亲疏程度等进行分类和分析。

1 聚类分析介绍

数据挖掘(Data Mining)是从大量、有噪声、模糊和不完全、随机的数据中,挖掘提取出隐含在数据中不为人知的、有价值的数据信息的过程[2]。其中,挖掘的有价值信息可用于过程控制、信息管理、决策支持等,同时可用于系统的数据维护。数据挖掘属于涵盖广泛的交叉学科,是一门综合了人工智能、机械学习、数据库和数据统计等多个研究领域的技术[3]。

数据挖掘中的聚类(Clustering)是一种观察式的学习,这种学习不依靠带符号的训练实例、预先的定义等,是通过研究对象间的相似性,将数据进行分类或分簇。在同一簇中的数据,相似度较高,但是不同簇中的数据对象,差别比较大[4]。其中,数据对象的相似度,按照对象属性值计算,一般用距离对相似度进行描述。

数据挖掘对聚类分析的要求如下:一是可伸缩性强,用于处理各种类型及级别的数据对象;二是对噪声数据,比如未知数据、空值等可进行处理;三是决定输入参数领域知识最小化,对结果的敏感度高,可直接决定聚类质量。

聚类分析在数据挖掘中的市场分析中得到广泛应用,可在客户基本数据库中,挖掘出不同的客户群,并描述其特征。由于是一种数据挖掘功能,可独立获得数据分布,并观察各个簇的特点,同时对特定的数据进行分析,为其他算法提供预处理步骤等。

2 模糊聚类数学原理及聚类分析

2.1 模糊聚类数学原理。模糊数学是扎德提出的一种理论,在诸多领域均产生重要影响,本文仅介绍模糊矩阵、模糊关系等。

定义一:假设V、U是两个论域,R是V*U的模糊子之一,属于它的隶属函数:R:V*U[0,1]。确定U中元素u与V中元素v的关系程度,也就称R为V与U的模糊关系。

定义二:模糊关系的传递性、对称性以及自反性。

定义三:模糊矩阵:假设矩阵R=(rij)m*n,则成R为一个模糊矩阵。

2.2 模糊聚类分析的应用。数据挖掘中具有多种聚类算法,比如基于密度、划分和网络等的算法中。如何选择算法,主要需要考虑数据类型、聚类应用和目的等。同时,可采用多种算法,寻找对象数据之间的联系。由于关系数据表中含有不同类型的数据,改进模糊数学中对纯数据型数据的分析,使模糊聚类分析可得到直接应用和分析。

2.2.1 原始数据标准化。对于模糊聚类分析来说,假设U为一个分类数据对象全体,其中的每一个数据对象均可用一个矩阵来表示,这样就得到一个样本数量为n的属性矩阵。在实际关系数据表中,包括布尔型、数值型和空值等各种类型的数据,且由于聚类目的的不同,需要分析原始数据中的若干因素,而不需分析其全部属性。所以,这就需要对原始数据做相应的处理,以消除变量对分类的影响[5]。

按照各种属性对原始数据标准化,可分为以下几种类型:一是间隔类型,数据值采用销售额、长度等数值型数据表示。数据标准化后,对于离散性或连续性小的数据,可区间方法加以离散;如数据的离散性大,可通过标准差公式和极差标准化公式来处理。标准差公式如下:

极差标准化公式如下:

二是有序类型:属性值有序等级表示,比如教授、助教和讲师等。布尔型数据属于有序类型,对有序类型数据的标准化,可将同属性数据归为一类,通过所占数据数据的百分率进行标准化。

其中,nc表示某种同属性值数据个数。

2.2.2 相似度计算。各样本关系间的计算,采用两种度量表示其接近程度,一种是相似度r,表示样本间相似程度,r越接近1,则表示样本间相似度高;二是距离d,假设两个样本为m维空间中的点,两点间的距离d越小,则表示相似度越高。

两个样本之间的这种基于距离的关系,在统计学中,一般采用如下做法:为构造模糊关系矩阵,用相似度描述样本间的关系。按照各类对象的属性,完成标准化后,计算各样本之间的相似度。计算公式如下:

2.2.3 聚类分析。确定了模糊相似矩阵之后,还应确定阈值β,然后通过编网法聚类,防止矩阵自乘。假设R=(rij)m*n为任意模糊相似矩阵,j为矩阵的列,初值1,j的聚类包括a、[j]及[h]:

A:如果第j类未能聚类,继续,否则转(E)。

B:求出所有≥阈值的元素的行,然后加入到各个聚类中。

C:对于聚类中的元素i,求出第i列中≥阈值的元素;如聚类中的元素已全部求出,转(E)。

D:如果ik在j聚类中,忽略,否则将其加入到聚类中。

E:j++;如果j≤n,转(A);否则停止。

3 聚类分析的应用

笔者从样本数据中选取部分数据,分析模糊聚类分析的应用。X1:沿海地区;X2:固定资产原值利税/百元;X3:资金利税率;X4:产值利税率;X5:销售收入利税/百元;X6:销售成本利税/百元;X7:流动资金周转次数。

第一步:原始数据标准化。略。第二步:采用夹角余弦法计算各个数据的相似度;第三步:确定合适的阈值,假设为0.95。

表2 相似度矩阵表

经过上述步骤,可完成聚类。但是在实际应用中,同样可对属性聚类,用以判断属性在样品中的重要性,进而赋予不同权值。

而模糊聚类程序的设计,可采用三层处理模块来实现。详见图1。

4 结束语

在数据挖掘技术不断提高的背景下,挖掘数据库中隐含的、有价值的知识,成为其主要的目标。笔者在本文中,结合相关的文献资料,主要讨论了对数据库中各种类型数据的处理,从数据挖掘与聚类分析的内涵、模糊数学理论及模糊聚类分析的应用等方面做了分析,相信它在当今大数据时代中也会得到某些借鉴。

参考文献:

[1]聂承启,聂伟强.数据挖掘中的模糊聚类分析[J].计算机工程与应用,2013(33):184-186.

[2]刘贵龙,张伟.模糊聚类分析在文本分类中的应用[J].计算机工程与应用,2013(39):110-111.

[3]徐海洋,王国安,王万森.模糊聚类分析在数据挖掘中的应用[J].中国新技术新产品,2011(13):245-246.

[4]彭学军.聚类分析在数据挖掘中的应用探究[J].科教文汇(理工科研),2010(12):124-125.

[5]唐小琴,代淑媛.数据挖掘中聚类分析的技术方法[J].微计算机信息,2013(10):119-120.

作者简介:卓广平(1972.07-),男,副教授,从事计算机教学和科研,研究方向:人工智能与数据挖掘。

作者单位:太原师范学院,太原 030619

上一篇:利用Q―in―Q技术实现对缸窑港湾设备的替换割... 下一篇:基于虚拟仪器的CO气体监控