解析数据挖掘中的聚类分析及其在控制中的应用

时间：2022-10-14 01:28:01

摘要：从大量的数据中，挖掘出有价值知识的方法称之为数据挖掘，它在或即将在工业、农业、教育、学术等诸多社会领域得到广泛的重视。数据挖掘包括诸多方面，如频繁项集挖掘、分类、离群点检测等。而聚类分析是一个重要领域，根据一定的规律与要求，对事物进行洞察分析，并且随着模糊数学、概率论、统计理论等的深入研究，开始用各种数学方法讨论一些聚类问题。本文主要探讨了模糊聚类分析的应用。

关键词：模糊数学；聚类分析；数据挖掘

中图分类号：TP311.13

聚类分析是一种科学的数学方法，是按照一定的要求和规律，对事物进行分类分析，属于数量统计多元分析的一个分支。随着数据挖掘技术的发展，在大量未知数据分类中，聚类分析得到了很好的应用[1]。由于在分类过程中，常常应用模糊数学方法，使得聚类分析显得尤为自然，与实际相符合。模糊聚类分析，可对事物的特征、相似性和亲疏程度等进行分类和分析。

1 聚类分析介绍

数据挖掘（Data Mining）是从大量、有噪声、模糊和不完全、随机的数据中，挖掘提取出隐含在数据中不为人知的、有价值的数据信息的过程[2]。其中，挖掘的有价值信息可用于过程控制、信息管理、决策支持等，同时可用于系统的数据维护。数据挖掘属于涵盖广泛的交叉学科，是一门综合了人工智能、机械学习、数据库和数据统计等多个研究领域的技术[3]。

数据挖掘中的聚类（Clustering）是一种观察式的学习，这种学习不依靠带符号的训练实例、预先的定义等，是通过研究对象间的相似性，将数据进行分类或分簇。在同一簇中的数据，相似度较高，但是不同簇中的数据对象，差别比较大[4]。其中，数据对象的相似度，按照对象属性值计算，一般用距离对相似度进行描述。

数据挖掘对聚类分析的要求如下：一是可伸缩性强，用于处理各种类型及级别的数据对象；二是对噪声数据，比如未知数据、空值等可进行处理；三是决定输入参数领域知识最小化，对结果的敏感度高，可直接决定聚类质量。

聚类分析在数据挖掘中的市场分析中得到广泛应用，可在客户基本数据库中，挖掘出不同的客户群，并描述其特征。由于是一种数据挖掘功能，可独立获得数据分布，并观察各个簇的特点，同时对特定的数据进行分析，为其他算法提供预处理步骤等。

2 模糊聚类数学原理及聚类分析

2.1 模糊聚类数学原理。模糊数学是扎德提出的一种理论，在诸多领域均产生重要影响，本文仅介绍模糊矩阵、模糊关系等。

定义一：假设V、U是两个论域，R是V*U的模糊子之一，属于它的隶属函数：R：V*U[0，1]。确定U中元素u与V中元素v的关系程度，也就称R为V与U的模糊关系。

定义二：模糊关系的传递性、对称性以及自反性。

定义三：模糊矩阵：假设矩阵R=（rij）m*n，则成R为一个模糊矩阵。

2.2 模糊聚类分析的应用。数据挖掘中具有多种聚类算法，比如基于密度、划分和网络等的算法中。如何选择算法，主要需要考虑数据类型、聚类应用和目的等。同时，可采用多种算法，寻找对象数据之间的联系。由于关系数据表中含有不同类型的数据，改进模糊数学中对纯数据型数据的分析，使模糊聚类分析可得到直接应用和分析。

2.2.1 原始数据标准化。对于模糊聚类分析来说，假设U为一个分类数据对象全体，其中的每一个数据对象均可用一个矩阵来表示，这样就得到一个样本数量为n的属性矩阵。在实际关系数据表中，包括布尔型、数值型和空值等各种类型的数据，且由于聚类目的的不同，需要分析原始数据中的若干因素，而不需分析其全部属性。所以，这就需要对原始数据做相应的处理，以消除变量对分类的影响[5]。

按照各种属性对原始数据标准化，可分为以下几种类型：一是间隔类型，数据值采用销售额、长度等数值型数据表示。数据标准化后，对于离散性或连续性小的数据，可区间方法加以离散；如数据的离散性大，可通过标准差公式和极差标准化公式来处理。标准差公式如下：

极差标准化公式如下：

二是有序类型：属性值有序等级表示，比如教授、助教和讲师等。布尔型数据属于有序类型，对有序类型数据的标准化，可将同属性数据归为一类，通过所占数据数据的百分率进行标准化。

其中，nc表示某种同属性值数据个数。

2.2.2 相似度计算。各样本关系间的计算，采用两种度量表示其接近程度，一种是相似度r，表示样本间相似程度，r越接近1，则表示样本间相似度高；二是距离d，假设两个样本为m维空间中的点，两点间的距离d越小，则表示相似度越高。

两个样本之间的这种基于距离的关系，在统计学中，一般采用如下做法：为构造模糊关系矩阵，用相似度描述样本间的关系。按照各类对象的属性，完成标准化后，计算各样本之间的相似度。计算公式如下：

2.2.3 聚类分析。确定了模糊相似矩阵之后，还应确定阈值β，然后通过编网法聚类，防止矩阵自乘。假设R=（rij）m*n为任意模糊相似矩阵，j为矩阵的列，初值1，j的聚类包括a、[j]及[h]：

A：如果第j类未能聚类，继续，否则转（E）。

B：求出所有≥阈值的元素的行，然后加入到各个聚类中。

C：对于聚类中的元素i，求出第i列中≥阈值的元素；如聚类中的元素已全部求出，转（E）。

D：如果ik在j聚类中，忽略，否则将其加入到聚类中。

E：j++；如果j≤n，转（A）；否则停止。

3 聚类分析的应用

笔者从样本数据中选取部分数据，分析模糊聚类分析的应用。X1：沿海地区；X2：固定资产原值利税/百元；X3：资金利税率；X4：产值利税率；X5：销售收入利税/百元；X6：销售成本利税/百元；X7：流动资金周转次数。

第一步：原始数据标准化。略。第二步：采用夹角余弦法计算各个数据的相似度；第三步：确定合适的阈值，假设为0.95。

表2 相似度矩阵表

经过上述步骤，可完成聚类。但是在实际应用中，同样可对属性聚类，用以判断属性在样品中的重要性，进而赋予不同权值。

而模糊聚类程序的设计，可采用三层处理模块来实现。详见图1。

4 结束语

在数据挖掘技术不断提高的背景下，挖掘数据库中隐含的、有价值的知识，成为其主要的目标。笔者在本文中，结合相关的文献资料，主要讨论了对数据库中各种类型数据的处理，从数据挖掘与聚类分析的内涵、模糊数学理论及模糊聚类分析的应用等方面做了分析，相信它在当今大数据时代中也会得到某些借鉴。

参考文献：

[1]聂承启，聂伟强.数据挖掘中的模糊聚类分析[J].计算机工程与应用，2013（33）：184-186.

[2]刘贵龙，张伟.模糊聚类分析在文本分类中的应用[J].计算机工程与应用，2013（39）：110-111.

[3]徐海洋，王国安，王万森.模糊聚类分析在数据挖掘中的应用[J].中国新技术新产品，2011（13）：245-246.

[4]彭学军.聚类分析在数据挖掘中的应用探究[J].科教文汇（理工科研），2010（12）：124-125.

[5]唐小琴，代淑媛.数据挖掘中聚类分析的技术方法[J].微计算机信息，2013（10）：119-120.

作者简介：卓广平（1972.07-），男，副教授，从事计算机教学和科研，研究方向：人工智能与数据挖掘。

作者单位：太原师范学院，太原 030619

解析数据挖掘中的聚类分析及其在控制中的应用

文档上传者

热门推荐更多>

解析数据挖掘中的聚类分析及其在控制中的应用

文档上传者

热门推荐 更多>

热门推荐更多>