模糊聚类在高新技术企业生命周期划分中的研究

时间:2022-03-04 08:17:55

模糊聚类在高新技术企业生命周期划分中的研究

摘要:针对高新技术企业的特点,该文提出了一种基于改进模糊C均值聚类算法划分其生命周期的方法。该方法主要从初始聚类中心的选取、孤立点数据的检测与处理两个方面进行改进,并对我国351家高新技术企业进行实证分析,研究证明该改进算法提高了划分的客观性,为高新技术企业生命周期的划分提供了一种新思路。

关键词:高新技术企业;生命周期;模糊C均值聚类

中图分类号:TP301 文献标识码: A文章编号:1009-3044(2010)17-4605-03

Research on Fuzzy Cluster Method in the Division of Hi-tech Enterprises' Lifecycle

WEI Hang, Chen Qin-qun

(Information Technology College, Guangzhou University of Chinese Medicine, Guangzhou 510006, China)

Abstract: According to the features of hi-tech enterprises, the paper puts forward a clustering method based on the improved fuzzy c-means algorithm to divide their lifecycle into different stages. The FCM algorithm is improved based on the situation of initialization and exclusion of isolated points. In addition, empirical Analysis on China's 351 high-tech enterprises shows that the improved algorithm is more scientific and will offer a new thinking for the division of hi-tech enterprises' lifecycle.

Key words: hi-tech enterprise; lifecycle; fuzzy c- means clustering

1 概述

将企业的成长过程划分为若干阶段, 根据不同阶段所具有的经济学特性, 分别研究其经营管理问题并形成决策, 属于阶段理论范畴。由于其具有较强的针对性,阶段理论广泛在企业中得到应用。高新技术企业也是企业, 其存续发展也同样会具有企业阶段性特征。同时,高新技术企业又有其自身的特点,如高智力密集、高风险、高收益、高成长和高竞争等。因此,如何对高新技术企业进行分阶段性研究,是管理者及投资者越来越关心的问题。

目前,对高新技术企业成长生命周期的研究,主要集中定性分析其阶段性的特征,对企业的整个发展过程如何划分为具有不同特征的各个阶段的研究较少,一般是凭经验人为划分。有鉴于此,本文试图探讨一种非经验的方法――模糊C均值(Fuzzy C-Means)算法。大多数高新技术企业并没有严格的属性,其所处的阶段具有过渡性的性质,没有明确的界限。当利用模糊聚类引入了隶属度这一概念时,则可很好地体现这一事实。模糊聚类结果可以得出某企业属于不同阶段的隶属度,能够更有效地帮助管理人员与投资者进行分析。特别是在无法确知总体的分布函数时,采用模糊聚类可以获得较好的效果[1]。但是,在高新技术企业生命周期的划分中,考虑到FCM算法的主要缺点,本文着重从初始聚类中心的选取、孤立点数据的检测与处理两个方面进行改进,以提高聚类质量和划分的客观性。

2 模糊C-均值算法

在模糊C 均值聚类算法中,每一个数据点按照一定的模糊隶属度属于某一聚类中心。这一聚类技术作为对传统聚类技术的改进,由Jim Bezdek于1981年提出。该方法提供了一种如何将多维空间的数据点分成特定数目的群的途径。

FCM算法的目标函数为:

式中dij=vi-xj为第i个聚类中心与第j个数据点间的距离, m∈[1,∞)是一个加权指数。

模糊c均值聚类的算法思想是:迭代调整(U,V),使得目标函数最小。其中模糊聚类算法初始化聚类中心的典型的做法是从所有数据点中任取c个点。

3 FCM算法在高新技术企业生命周期划分中的改进与应用

3.1 对初始聚类中心和聚类数目c的选取

在高新技术企业生命周期的划分中,由于对考察对象认知的不完整,要确定聚类数目c是有困难的。因此,我们根据最大最小距离法[3]进行初始聚类中心的选择,这样可找到较好的聚类中心,聚类数目c也随之确定。

3.2 对孤立点数据的检测与处理

模糊C均值算法是基于距离的算法,聚类结果受数据集中孤立点影响较大。我们利用了相似系数和对孤立点数据的检测[4]和改变隶属度的约束条件对孤立点进行处理,这样可以有效降低孤立点数据对FCM算法的影响。

其中隶属度修改为:

当修改后的隶属度应用于聚类中心公式时,隶属度小的数据对象对聚类中心的影响降低了。

3.3 改进的FCM算法步骤

根据以上分析,我们可对传统的FCM算法进行改进,具体步骤如下:

1)数据的预处理:孤立点的检测、清除与数据归一化。

2)聚类中心初始化:根据最大最小距离法选择初始聚类中心V(0)={vi},(i=1,2,…,c),其中c为聚类中心个数。设置迭代计数器b=1。

3)用式(2)计算或更新划分矩阵U(b):对于任意的i,j,如果存在,则有:

(3)

若果存在i,r,使得dir(b-1)=0,则有uir(b)=1,且对j≠r,uij(b)=0

4)更新聚类中心V(b)。

5)计算价值函数。如果它相对上次价值函数值的改变量小于某个阈值,则算法停止。否则,令b =b+1,转向步骤2。

3.4 应用实例

3.4.1 样本的选取与样本特征的选取

本文主要以我国上市的297家高新技术企业(截至2009年2月28日,通过2008《高新技术企业认定管理办法》[6]的企业),以及*市*开发区的54家高新技术企业为实验数据样本。

FCM分割算法的实际划分效果与特征空间中样本的特征极其相关。文献[7]中提到聚类算法的运行效果与聚类样本的特性相关联。在特征指标的选取上,我们依据科学性、可操作性、客观性的原则, 结合高新技术企业的特点,选出能在一定程度上反映企业所处的发展阶段的指标,具体如表1所示。

企业成立的时间长短虽能在一定程度上反映企业所属发展阶段,但不足以说明问题。一般而言,在企业的不同发展阶段,企业投资额、产品销售规模、资本支出以及股利政策等均有所不同。一般来说,当企业处在创业和成长阶段时,企业的投资额通常较大,而当企业处在成熟期乃至衰退期时,由于缺乏新的技术和投资项目而资本支出相对较少;在企业的成长阶段,企业的销售一般呈增长趋势,以后期间则由增长速度放慢、零增长直到下降。因此,在企业进入成熟阶段以后,资本投入以及销售增长率这两个变量往往会趋于平缓而逐步下降。另一方面,创业期和成长期由于企业对资金的需求量大,对股利分配通常会采取低比例分配的政策。而在成熟期或衰退期时,由于资金较为宽裕或缺乏投资目标,企业可能提高分配比例。

3.4.2 实验数据的预处理

将所采集的数据做以下预处理:

1)孤立点的清除:

本文采用相似系数和的方法从351个样本中检测出2个孤立点,经分析后确定1个异常点,清除后得到有效样本企业350个。

2)归一化:

由于数据之间量纲与范围不同,为了保证各目标具有等效性,便于以后的模糊聚类算法的实现,需要对原始数据进行处理,使之无量纲化与归一化。

其中n为实验样本高新技术企业数,k为特征指标数

3.4.3 高新技术企业生命周期的划分

首先,本文采用最大最小距离法进行初始聚类中心的选取,确定了5个初始聚类中心v0(如表2 所示)。

基于企业生命周期理论,结合高新技术企业的特点[9]分析,这5个初始聚类中心分别是处于种子期、初创期、成长期、成熟期以及衰退期较具有代表性的企业的相应特征量。当聚类中心确定后,结合Bezdek等[8]的建议,在1.5~3之间采用不同的加权指数m,进行FCM 运算,经过对比m 为2.0时,聚类分割精度、迭代次数和分割速度整体效果较好。

接着,设定ε=0.001根据上文所所述改进的模糊C均值算法具体步骤,经过多次迭代并不断修正聚类中心,直至收敛为止,目标函数变化曲线如图1所示。

从图1可以看到,目标函数经12 次迭代后,很快趋于收敛,这样可以保证聚类中心的稳定性。最终获得不同阶段下的聚类中心v(如表3 所示)和隶属矩阵U。

表3 各阶段的聚类中心

最后根据已经得到的聚类中心 或隶属矩阵U,依据“择近原则”或“最大隶属度原则”,这样就完成了高新技术企业生命周期的划分。

3.4.4 结果分析

鉴于条件限制,本文采用随机抽样、分层抽样方式采取分类精度检验的样本。随机抽样用来检验所获取的高新技术企业信息的整体情况,随机采样23个;分层抽样旨在检验模型是否可以很好地适应每个生命周期阶段信息的变化,设计从所划分的结果按种子期、种子期、初创期、成长期、成熟期以及衰退期各抽取6个样本,共30个样本点。

从表3中可以看出,改进的FCM算法的效果要好于传统的FCM算法,提高了划分高新技术企业生命周期的客观性。

4 结束语

本文针对高新技术企业在各个生命周期所呈现的不同特征,提出了一种基于改进的模糊C-均值算法(FCM)的生命周期划分方法,主要是从初始聚类中心的选取与孤立点数据的检测与处理两方面对传统的FCM算法进行改进。此方法既可以避免传统FCM算法中随意选取初始模糊分类中心可能带来的失真现象,又可以排除孤立点对聚类结果的干扰,提高了聚类分析的质量与可靠性。运用其于我国351家高新技术企业的实验数据样本中,结果表明,该方法对高新技术企业生命周期的划分是可行、有效的。

参考文献:

[1] Lundy M.Cluster analysis in credit Scoring[M].Credit Scoring and Credit Control New York: Oxford University Press,1993.

[2] 董国华. 一种改进的聚类算法及其在说话人识别上的应用[J].微计算机信息,2004,33(2):133-135.

[3] 周涓,熊忠阳,张玉芳.基于最大最小距离法的多中心聚类算法[J].计算机应用,2006(6).

[4] 姜灵敏.基于相似系数和检测孤立点的聚类算法[J].计算机工程,2003(11):183-185.

[5] RAMACHANDRA A R,SRINIVASV V.Regionalization of watersheds by fuzzy cluster analysis[J].Journal of Hy-drology,2006,318:57-79.

[6] 国家科学技术部办公厅关于印发《高新技术企业认定管理办法》的通知[Z].国科发火[2008] 172号.

[7] Wang Chengbo,Wang Hongbin,Mei Qibin.Texture segmentation based on an adaptively fuzzy clustering neural network[A].Proceedings of the Third IEEE International Conference on Machine Learning and Cybernetics[C].Shanghai,China,2004:1173-1176.

[8] Theodoridis S.Pattern Recognitions[M].Second Edition USA:Elsevier Scinece,2003.

[9] 孙强.高新技术企业特点及发展的影响因素分析[J].科技管理论坛,2007(1).

上一篇:探讨操作系统实验课程现状与改进 下一篇:基于Java EE架构的多层软件的测试研究与实现