聚类分析论文范文

时间:2023-09-15 16:18:57

聚类分析论文

聚类分析论文篇1

1.1城郊农户此种类型的农户主要是对其生活、农业种植、畜禽养殖、乡村旅游进行污染区分。①污染源区分:农家乐是目前乡村旅游的重要形式,其污染源包括污水、人类尿便等,乡村旅游污染和旅游人数之间有着直接的关系。所以,这一类污染的产污单元可以看做是每一位乡村游客。②污染强度的划分:生活污水(包括垃圾、人类尿)排放强度=每户游客污水日排放量/每户游客数。

1.2种养结合户此种类型农户的污染源划分主要是根据农户种植污染、畜禽养殖污染、农户生活污染等进行划分。其中,畜禽养殖污染源的划分同典型养殖户;农户生活、农户农业种植污染源识别同典型种植户。

2农村环境污染物排放的核算

2.1农村环境污染物具体排放量的计算研究得知,各污染源污染实物的排放量多少是和流失系数、产污系数等密切相关的。而农村环境污染具有极其明显的地域性,所以我们计算中需要的参数值必须通过对某一地区内各种相关联的因素进行测定和综合分析才能得出。目前,得出这些参数的方法一般有两种,一是通过特定地区的污染发生学实验研究来得出,二是通过相关的文献进行筛选、调研。

2.2农村环境污染敏感性的调研这里提到的敏感性主要是指调研区域地表水环境对农村各种社会经济活动的反应的敏感程度。可以反映产生地表水水体富营养化的概率的大小,敏感性分为5级,即不敏感、轻度敏感、中度敏感、高度敏感、极敏感。根据相关的调查,对农村环境污染的敏感性评价可以采用污染物(COD、TN、TP)的排放浓度结合水质评价模型进行评定。具体可有以下3种方法。①单向水质指数法。在确定各基本单元的基本指数后,用污染物(COD、TN、TP)的水质指数作为变量,进行全面的聚类分析,然后根据分析结果,划分敏感级别。②加权指数法。运用加权指数法可以反映出污染物(COD、TN、TP)在不同地区对环境污染的影响。首先要确定影响农村环境污染敏感性发热污染物(COD、TN、TP)的排放浓度,然后再依据加权指数法计算出各基本敏感单元的敏感性数值。③内梅罗综合指数法。如果单项水质指数的数值变化很大,为了更加有效的突出各个高值的影响,就可以采用内梅罗平均值法。同样,在确定了各基本单元的内梅罗指数后,以其指数为变量。进行综合的聚类分析,然后根据分析结果划分敏感性等级。

3污染程度的区分

首先确定环境污染中的主要污染物、总污染负荷,然后与区域相结合确定重点污染区域,进而确定其污染程度。

3.1水质系数和排放浓度要想全面的反映出区域污染的状况,要从排污总量和排污浓度两方面上来进行考虑,水质系数反映评价标准和污染物浓度之间的关系,其中:污染物水质指数=该污染物排放浓度/该地环境质量标准

3.2聚类分析进行聚类分析要运用SPSS软件,采用Q型聚类,通过对农村环境污染源等标污染的负荷率进行综合的聚类分析,然后来区分不同区域的主要污染类型,比如种植污染型、养殖污染型、综合污染型、生活污染型等。

4结语

本文提供的区划结果对农村环境保护的分级管理和分类管理很有参考的价值,希望这些研究可以大大提高农村环境污染控制的治理成效,为我国农村污染的治理作出一点贡献。

聚类分析论文篇2

关键词:最大生成树;模糊聚类;簇;相关系数;基因

中图分类号:TP311

文献标识码:A 文章编号:1672-7800(2015)005-0068-02

作者简介:刘芳(1979-),女,辽宁沈阳人,硕士,沈阳理工大学理学院讲师,研究方向为应用数学与计算机辅助几何设计。

0 引言

近年来,随着人们对生命科学的深入研究,开发出许多用于基因分析的工具[2]。利用这些工具,在不同的试验条件下,人们能够对成千上万个基因进行实时监控,以研究由于环境变化引起的基因变化。因此,首先对大量的基因表示数据进行分类,有效地鉴别基因表示数据的模式是研究DNA序列的重要基础。

聚类分析是统计学的一个分支,聚类算法能从空间数据库中直接发现一些有意义的聚类结构。聚类分析以相似性为基础,在一个聚类中的模式比不在同一聚类中的模式之间具有更多相似性。聚类分析算法有划分法、层次法、基于密度的方法、基于网格的方法和基于模型的方法等。但传统的聚类分析把每个待辨识的对象严格地划分到某个类中,这种硬划分的界线是分明的。而客观世界中存在大量界限不分明的聚类问题,它们的类属和性态存在着中介性,适合软划分。Zadeh提出的模糊集理论[3]为这种软划分提供了有力的分析工具,人们开始用模糊方法处理聚类问题,并称之为模糊聚类分析。常用的模糊聚类方法有传递闭包法、动态直接聚类法、最大树法[2]、基于摄动的模糊聚类方法FCMBP、系统聚类法、模糊C-均值法和模糊ISODATA算法。

本文把最大生成树法用于模糊聚类分析,最大生成树可以将数据聚类转换成树分割问题,通过删除最大生成树中某些具有最短距离的边,将最大生成树分为若干子树。本文讨论数据集的最大生成树表示,以及相应的聚类分析方法,并将其用于基因分类。

1 用生成树表示数据

2 最大生成树聚类算法

杨国惠[4]等人提出改进的中心聚类算法,本文在此基础上又提出最大生成树的基因聚类算法,同时通过实例验证了此算法可以得到较好结果。算法描述如下:具有较长边的两个点应属于同一个簇,具有较短边的两个点应属于不同的簇,并将被分割。由推论1,通过清除最大生成树中具有最小距离的k-1条边可得到k个簇,只要不同簇之间点的边距离小于簇内点的边距离,这k个簇则是全局最优解。但是,当不同簇没有用短距离边而是一系列长距离边连接,或者当存在“噪声”和孤立点数据时,该方法可能得不到最好的聚类结果。为了自动决定应该进行多少次有效分割,可在分割算法中检测新产生的子树是否为孤立点,通过消除孤立点并增加有效分割次数,最终获得正确的k个簇。

2.1 算法程序实现

开始

输入:数据集data和聚类数目K

begin

weightcompute_weight(data);{计算距离矩阵}

t{1,2,3,…,data_number};

m=0;

查找weight中的最大值所在的行列值(x,y);

while(m~= data_number-cluster_number)

begin

if(t(x)~=t(y))

begin

m=m+1;

tree(1,m)=x(1);

tree(2,m)=y(1);

tmin=min(t(x(1)),t(y(1)));

tmax=max(t(x(1)),t(y(1)));

for j=1:datanumber

if(t(j)==tmax)

t(j)=tmin;

end

weight(x,y) ∞;

查找weight中的最大值所在的行列值(x,y);

end

由tree得到聚类结果cluster;

计算聚类误差平方和cluster_err;

计算q值;

end

输出:聚类cluster、误差平方和cluster_err,q值;

结束

3 实验结果与评价

现选择酵母数据集[5],此数据集中每个基因有79个属性(或79维),选择4个聚类共68个基因,这4个聚类分别为protein degradation(聚类C)、glycolysis(聚类E)、protein synthesis(聚类F)、 protein chromatin(聚类H)。

这个实验的目的是将最大生成树基因聚类算法应用到基因聚类中,同时说明该算法是可行、有效的。为了评价计算结果,使用以下定义。

误差平方和J(k)的定义如下:

J(k)=∑ki=1∑d∈Tid-center(Ti)2(5)

对于用户选择的目标函数和一个整数值K,计算最优k聚类k∈[1,K],然后比较这些值。设J(k)代表选择的目标函数最佳k聚类的值,里面的k∈[2,K-1],q(k)的最大值作为最自然的聚类数:

q(k)=J(k-1)-J(k)J(k)-J(k+1)(6)

距离测度采用公式(2)。

从图像中可以看到最大生成树基因聚类算法的最佳聚类数是4,分类的结果完全一致(见图1)[1]。

4 结语

本文在已有最大树聚类理论基础上,引入模糊聚类思想,提出了最大树基因聚类算法,对基因数据的聚类分析有重要的实践价值。特别对于生物学DNA序列信息、蛋白质结构信息的分类更具有意义。

参考文献:

[1] YING XU, VICTOR OLMAN, DONG XU.Clustering gene expression data using a graph-theoretic approach: an application of minimum spanning trees[J]. Bioinformatics, 2002, 18(4):526-545.

[2] HATHAWAY R J,BEZDEK J C.Optimization of clustering criteria by reformulation[J].IEEE Transactions Fuzzy Systems,1995,3(2):241-245.

[3] ZADEH L A. Fuzzy sets [J].Information and contral,1965(8):338-353.

[4] 杨国惠,周春光,等. 最小生成树用于基因表示数据的聚类算法[J].计算机研究与发展,2003,40(10):1431-1435.

聚类分析论文篇3

关键词:模糊聚类;应用

中图分类号:TP311 文献标识码:A

随着互联网技术的发展和计算机处理能力的不断提升,处理海量数据成了目前计算机的主要任务之一。如何把海量数据很好地进行归类以发现知识也成了很多学科领域的研究重点。

聚类就是按照事物的某些属性将事物聚成类,使类间的相似性尽量小,类内的相似性尽量大。在这个过程中,事先并不清楚每个数据的类别,是一种无监督的分类过程。其目的是要获得一个划分,这些划分将一组数据集合分成几个子集,每个子集为一类,划分的标准是同类的数据在某种意义下相似性较高,不同类的数据在相同意义下相似性较低。

而现实世界中数据的归类有时并没有如此严格的界限,数据在性态和类属方面存在着过渡态,单一的类别并不能全面反映数据属性,需要做一种软划分以表达数据的类别性质。Zadeh提出的模糊集理论为解决这一问题提供了有力的分析工具,用模糊理论的思想来处理聚类问题,可以建立起样本对于类别的不确定性的描述,能更客观地反映现实世界。模糊聚类方法就是在此基础上发展起来的。这种类型的聚类方法,是从模糊集的观点来探讨事物的数量分类的一类方法

1 模糊集定义

模糊集理论最早是1965年美国计算机和控制论专家Zadeh提出的。他提出了用隶属程度来描述事物差异的中间过度,是一种用精确的数学语言对模糊性进行描述的方法。这种隶属程度,称谓隶属函数。

定义:论域U上的模糊集合A通过一个隶属函数刻画

μA (x):U[0,1],x∈U

记住A={(x,μA (x))|x∈U}

对任意x∈U,都指定一个数μA (x) ∈[0,1]与之对应,称为x对A的隶属度,μA(x)称为A的隶属函数。

若μA (x)=0,则x完全不属于A;若μA (x)=1,则x完全属于A;若0

隶属函数是模糊集理论的基本概念,它以0~1区间的一个实数反映一个元素隶属于集合的程度来描述模糊现象。常用的隶属函数有三角形隶属函数,S隶属函数,正态隶属函数,梯形隶属函数等。而隶属函数的正确选择在模糊集的研究与应用中起着十分关键的作用。当然,也可以个人偏好主观设定隶属函数。

2 模糊聚类算法描述

类的类别界限是分明的。然而,客观事物之间的界限往往是不分明的,这就提出了模糊划分的概念。模糊聚类是采用模糊数学方法,依据客观事物间的特征、亲疏程度和相似性,通过建立模糊相似关系对客观事物进行分类的一门多元技术。

设X=(x1,x2,…,xn)为被分类对象全体,每一对象xi由一组数据(xi1,xi2,…,xim)表征,建立X上的模糊关系(模糊相似矩阵)R=(rij)n×m,这里表示xi与xj的相似度。其模糊关系的确定方法具体有距离法,如切比雪夫距离、海明距离、欧氏距离,以及相似系数法、贴近度法等。

基于模糊划分概念的模糊聚类方法主要有传递闭包法、最大树法,模糊C2均值方法等。模糊聚类反映了对象属于不同类别的不确定程度,可以更客观地反映现实世界。目前,模糊聚类分析已经广泛地应用于经济学,生物学,气象学,信息科学,工程技术科学等许多领域。

2.1 传递闭包法

传递闭包法聚类首先需要通过标定的模糊相似矩阵R,然后求出包含矩阵R的最小模糊传递矩阵,即R的传递闭包t(R),最后依据t(R)进行聚类。

(1)根据建立的相似矩阵求其传递闭包,即利用平方法,依次计算RR2R4。...。 R2k...,直至首次出现R2k=R2k+1,此时的R2k=t(R)为模糊等价矩阵。

模糊相似关系的建立关于各分类对象之间相似性统计量rij的计算,除了采用夹角余弦公式和相似系数法等方法确定相似系数,建立模糊相似矩阵,还可以采用如下几个计算公式。

①数积法:

(2)再按模糊等价矩阵t(R)里的元素数值从1到0,依次截得等价关系进行分类就能得到一个聚类图整个计算量为n3~n3log2n。

2.2 最大树法

最大树法根据模糊相似矩阵画出最大树再进行聚类,可按如下步骤进行。

第一步:建立分类对象集上的模糊相似关系,构造模糊图。这一步骤的工作可按如下作法进行:

(1)计算各个分类对象之间的相似性统计量rij(i,j=1,2,…,m),

建立分类对象U上的模糊相似关系R(rij)n×m

(2)将R表示成一个有m个结点所构成的模糊图G

第二步:构造最大模糊支撑树。构造模糊图G上的最大支撑树的算法,可按下述作法进行:

(1)找出G中最大权值的边rij;

(2)将rij存放在集合C中,将rij边上的新结点放入集合T中,若T中已含有所有m个结点时,转(4);

(3)检查T中每一个结点与T外的结点组成的边的权值,找出其中最大者rij,转至(2);

(4)结束,此时G中的边就构成了G的最大模糊支撑树Tmax。

第三步:由最大模糊支撑树进行聚类分析。其具体作法是:选择某一个λ值作截集,将Tmax中小于λ的边断开,使相连的各结点构成一类,当λ由1下降到0时,所得的分类由细变粗,各结点所代表的分类对象逐渐归并,从而形成一个动态聚类谱系图。

最大树的画法有Prim法和Kruskal法,用Prim法至多进行n3次运算,用Kruskal法至多进行n3~n3log2n次运算。

2.3模糊C均值聚类算法(FuzzyC-means,FCM)

该算法是由Bezdek和Dunn提出的,用隶属度确定每个样本属于某个聚类程度的聚类算法。FCM算法如下:将特征空间X={x1,x2,...,xn}划分为c个模糊组,可用模糊隶属矩阵U=(uij)∈Rcn表示,U中的数据uij表示第j(j=1,2,。。。,n)个样本属于第i(i=1,2,...,c)个类的隶属度,uij应满足式(7):

(7)

Bezdek将Dunn定义的目标函数J(U,C1,…,Ce)算法推广到更一般的情况:

(8)

式(8)中ci∈Rn为模糊组的聚类中心,dij=xj-ci为第个聚类中心与第个样本的欧几里德距离,dij2(xj,ci)=(xj-ci)TA(xj-ci),目标函数Jm(U,c1,...,ci)为某个样本到相应的聚类中心的加权距离平均和;m∈[1,∞]是一个模糊加权指数,用来控制隶属矩阵的模糊程度。

3 模糊聚类分析的应用研究

3.1 模糊聚类分析在数据挖掘中的应用

随着近年来数据挖掘技术的发展,聚类分析越来越多地用于大量的未知类别数据的分类,通过聚类可以从客户基本数据库中发现不同的客户群,刻画不同客户群的特征;作为数据挖掘的功能,聚类分析不仅可以作为一个独立的工具来获得数据分布的情况,观察每个簇的特点,集中对特定的某些簇做进一步的分析研究,而且聚类分析还可以作为其它算法(如特征和分类等)的预处理步骤,能够发现具有相似记录的数据空间领域,往往可以获得较好的样本数据。由于现实的分类过程往往伴随着模糊性所以用模糊数学的方法来进行聚类分析会显得更自然、更符合客观实际。模糊聚类分析是依据客观事务间的特征、亲疏程度和相似性,通过建立模糊相似关系对客观事务进行分类的方法。 本文为全文原貌 未安装PDF浏览器用户请先下载安装 原版全文

模糊集理论是一种处理不确定性问题的数学工具,是数据挖掘技术的重要方面。它正与粗糙集理论相集合,成为数据挖掘技术中一个新型领域,其发展空间极为广阔。

3.2 模糊聚类分析在金融业中的应用

数据挖掘在金融领域应用广泛,包括金融市场分析和预测、客户分类、银行担保和信用评估等。这些金融业务都需要收集和处理大量数据,很难通过人工或使用一两个小型软件就能进行分析预测,而数据挖掘则可以通过对已有数据的处理,找到数据对象的特征及彼此之间的关系,利用模糊聚类分析法对客户进行分类,阻止产生坏账,防范金融欺诈,挖掘优质客户,让金融业更了解客户,为各种客户量身定做,设计更好的金融品种来满足客户需要,运用估计和预测的方法进行市场动向分析,可以从历史数据中分析市场走向,并预测观察到金融市场的变化趋势。

3.3 模糊聚类分析在模式识别中的应用

特征提取是模式识别中的一个重要问题,模糊聚类能从原始数据中直接提取特征,还能对已经得到的特征进行优选和降维操作;提取完特征后就需要分类器设计,模糊聚类算法既可以提供最近邻原型分类器,还可以用来进行特征空间划分和模糊规则提取,以构造基于模糊IF-THEN规则的分类器;在线条检测或物体识别中,模糊聚类既可以直接用于原始数据上,也可以用于变换域中,比如Hough变换中峰值检测问题一直困绕着其推广应用,基于模糊聚类的峰值检测方法解决了这一问题,使得Hough变换可以自动执行。在一些模式识别的具体应用中,模糊聚类取得了较好的效果,比如语音识别中的分类和匹配;雷达目标识别中目标库的建立和新到目标的归类;汉字字符识别中的字符预分类等。

3.4 模糊聚类分析在图像处理中的应用

图像处理是计算机视觉的重要组成部分,由于人眼视觉的主观性使图像比较适合用模糊手段处理,同时训练样本图像的匮乏又需要无监督分析,而模糊聚类正好满足这两方面的要求,因此模糊聚类成为图像处理中一个重要的研究分析工具。图像分割是模糊聚类在图像处理中最为广泛的应用,图像分割本质上就是象素的无监督分类问题,Coleman和Andrews在1979年就提出用聚类算法进行图像分割,此后基于二维直方图、塔型结构和小波分析等一系列新技术,人们相继提出了多种基于模糊聚类的灰度图像分割新方法,该方法在纹理图像分割、彩色图像分割、序列图像分割、遥感图像分割等方面获得了很大的进展。基于模糊聚类的方法在图像压缩、曲线拟合、边缘检测、图像增强等方面的研究同样取得了丰硕的成果。

4 结束语

模糊聚类是一门采用模糊数学方法进行分类的多元技术,其中动态直接聚类法计算量最少,在聚类分析、模式识别等领域应用中简便、实用。在实际应用中,其步骤是先经过数据预处理,再选取合适的模糊关系建立模糊相似矩阵,最后进行分类和识别。

参考文献:

[1] 刘晋寅, 吴孟达. 模糊理论及其应用[M]. 长沙: 国防科技大学出版社, 1998.

[2] Timothy J Ross. 模糊逻辑及其工程应用[M]. 北京: 电子工业出版社, 2003.

聚类分析论文篇4

关键词:信息资源管理;模糊聚类分析;钢铁企业信息资源管理

中图分类号:F272 文献标识码:A 文章编号:1001-828X(2012)10-00-02

一、引言

随着信息技术的不断发展,信息资源和物质、能量等资源一样,已成为企业发展的重要资源。对于钢铁企业来说,钢铁企业的信息资源管理是整个钢铁行业信息化的重要组成部分。如何衡量钢铁企业信息资源发展的程度和水平,就必须对企业信息资源管理水平进行测度和评价。本文首先建立了钢铁企业信息资源管理水平指标体系,然后利用模糊聚类分析法对河北省6家钢铁企业的信息资源管理水平进行了聚类分析和实证研究。

二、钢铁企业信息资源管理水平评价的指标体系

建立钢铁企业信息资源管理水平评价指标体系时,主要考虑人员素质、基础设施建设、经费投入等方面的因素。经过与钢铁行业的专家探讨,同时结合钢铁企业的实际情况,形成了能系统地描述钢铁企业信息资源管理水平的指标体系。其中一级指标包括:信息资源管理的应用状况、基础设施、人员素质、效益指数、信息安全的投入等因素。二级指标结合钢铁企业的实际情况,主要包括:信息化投入占固定资产比率、每百人计算机拥有量、计算机联网率、ERP系统的普及程度、企业门户网站建设水平、信息化人才指数、信息化技能普及程度、信息安全的投入占全部信息化投入的比例、信息化安全措施应用率、资金运转效率、利润增长比率等因素。钢铁企业信息资源管理水平评价的指标体系如下图所示。

图1 铁企业信息资源管理水平评价的指标体系

三、钢铁企业信息资源管理水平评价方法

1.聚类分析法

聚类分析法是多元统计分析的一种方法。它的基本思想就是在样品之间定义距离,在变量之间定义相似系数,距离或相似系数代表样品或变量之间的相似程度。按相似程度的大小,将样品(或变量)逐一归类,关系密切的类聚集到一个小的分类单位,然后逐步扩大,使得关系疏远的聚合到一个大的分类单位,直到所有的样品(或变量)都聚集完毕,形成一个表示亲属关系的谱系图,依次按照某些要求对样品(或变量)进行分类。本文采用模糊聚类分析法,把模糊理论和聚类分析理论结合起来进行分析。模糊聚类分析法的步骤如下:

(1)选择被评价的对象,构成论域U= ,其中ui表示样本数据,Xij表示各指标的数据。

(2)原始数据标准化。要构造模糊关系矩阵,必须对样本数据进行处理,使样本数据压缩到[0,1]范围内,首先求出n个样本的第j个指标的平均值和标准差。

n个样本的第j个指标的平均值为:;n个样本的第j个指标的标准差为:;原始数据标准化值为:;运用极值标准化公式,将标准化数据压缩到[0,1]区间内,,其中与分别表示中的最大值和最小值。

(3)采用绝对值减数法建立相似矩阵。

其中c为适当选取数,使得 。

(4)确定模糊等价关系矩阵。即自乘得,再自乘,直到为止,则便是一个模糊等价关系矩阵。

(5)求并进行聚类,其中。

(6)根据实际需求确定值,得出论域的分类情况。

2.实证分析

本文对河北省多家钢铁企业的信息资源管理情况进行调查,选择了其中具有代表性的6家企业作为评价对象。这6家企业分别为河北敬业钢铁有限公司(A),河北省首钢迁安钢铁有限责任公司(B),河北钢铁集团宣钢公司(C),河北钢铁集团邯钢公司(D),唐山国丰钢铁有限公司(E),唐山钢铁集团有限责任公司(F)。

(1)确定论域。选择6家企业作为评价对象,构成论域U,即。根据实际调查情况得到各企业的指标体系的数据,如下表所示:

原始数据标准化处理,如下表所示:

运用极值标准化公式,将标准化数据压缩在[0,1]区间内。

(2)建立模糊相似矩阵。采用绝对值减数法,建立其模糊相似矩阵R,其中c=0.1;

(3)建立模糊等价矩阵。这里采用平方法计算传递闭包,将模糊相似矩阵自乘可得如下结果:

,即为模糊等价矩阵。

(4)聚类分析。得到模糊等价矩阵后,通过分析,这里选取截取水平

,对样本进行模糊聚类。

根据模糊统计的结果,把6家企业分为四类:Ⅰ类,Ⅱ类,Ⅲ类,Ⅳ类,Ⅰ类企业的信息资源管理水平最高;Ⅱ类企业的信息资源管理水平较高;Ⅲ类企业的信息资源管理水平较一般,Ⅳ类企业的信息资源管理水平较差,需要进一步改进,分析结果与实际情况相一致。

四、结论

当前对钢铁企业信息资源管理水平综合评价研究的论文较少,本文采用定量和定性的分析方法对钢铁企业信息资源管理水平进行了探讨。首先提出了钢铁企业信息资源管理水平综合评价的指标体系,然后采用模糊聚类分析方法对河北省6家钢铁企业的信息资源管理水平进行了聚类分析。研究结果不仅对河北省钢铁企业的信息资源管理有重要意义,而且对我国钢铁企业的信息资源管理水平也有一定的指导作用。

参考文献:

[1]孟广均.信息资源管理导论[M](第2版).北京:科学出版社,2003:80-90.

[2]李金云.基于模糊聚类分析法的读者满意度测评研究[J].情报探索,2009(05):7-10.

[3]高新波.模糊聚类分析及其应用[M].西安:西安电子科技大学出版社,2004:60-70.

[4]齐莉丽.企业信息资源管理水平评价研究[J].科技进步与对策,2005(01):50-5l.

[5]张贵荣.企业信息化与信息资源管理[J].情报科学,2004(06):687-689.

[6]于嘉.企业信息资源管理探析[J].大学图书情报学刊,2008(10):30-33.

作者简介:吴红霞(1977-),女,河北省灵寿人,河北理工大学经济管理学院讲师,硕士研究生,从事信息管理和信息系统方向的研究。

聚类分析论文篇5

内容摘要:产业集群已经成为区域经济发展中新的亮点,然而,如何识别和选择产业集群仍然是困扰决策者和研究者的主要技术问题之一。鉴于此,本文在综合国内外相关研究的基础上,以河南省为例,尝试运用基于投入-产出模型的主成份分析法和聚类分析法进行了集群的动态识别和分类研究。

关键词:投入产出分析 主成份分析 聚类分析

产业集群识别问题研究概述

识别产业集群是产业集群理论研究和实际运用的基础,目前,国内外有关产业集群识别问题的研究主要集中于三个层面,即微观层面的产业集聚状态分析,中观层面的区域行业空间集聚和经济联系分析,宏观层面的国家产业集群竞争力分析。相应的研究方法主要有波特案例分析法、区位商法,望闻问切法以及基于投入产出理论的主成份分析法、多元聚类法、图论法和网络流法等。其中波特案例法比较适用宏观层面的分析;区位商法可用于微观层面的分析,将区位商法和基于投入产出表主成份分析法、多元聚类分析法和图论分析法结合可以用于中观层面的分析。

考虑到目前有关产业集群识别和分类的国内研究中定性分析多,定量研究较少;静态分析多,动态分析较少的研究现状。本文以河南省为例,把定性分析和定量研究结合起来,尝试采用动态识别和聚类分析相结合的分析方法对区域产业在空间上的集聚状态和产业间的关联进行研究。

产业集群动态识别

目前,区位商法是识别产业集群最常用的一种分析方法。但是由于该方法假设全国和区域两个层面上同一产业的劳动生产率是相同的,是一种静态的研究方法,因此不能用于新型或小型产业集群的识别。同时又由于产业集群具有动态关联的特征,因而用一种动态的分析方法来进行研究将更加合适,鉴于此本文选用了基于投入-产出模型的主成份分析法进行研究。

投入产出分析又称产业关联分析,是美国著名学者列昂惕夫首先提出来的一种数理分析方法。用投入产出分析法识别产业集群主要抓住了“产业集群内的各个企业存在紧密的产业联系”这一特征。1971年Czamanski在“投入―产出”模型的基础上应用主成份分析法对区域产业集聚状态进行了分析。该分析方法较好的显示了产业间的关联性,突出了产业间的互补性,比较适合区域范围内产业集群的识别和选择。其中,主成份分析的基本目的是简化数据和解释生产的因子。用此方法可以识别在直接消耗系数矩阵中不明显的产业关联,因此是识别产业集群的一种较好的方法。基于此,本文根据河南省2005年投入产出表构造了直接消耗系数矩阵。由于公共管理和社会组织业、废品废料行业与绝大多数行业相关系数为0,所以将其剔除,保留了40个部门,然后本文利用SPSS14.0统计软件进行主成份分析。具体步骤如下:

第一步,对数据进行标准化处理,通过KMO值(0.7205)检验证明国民经济中其他行业具有较好的相关性。第二步,按照累计方差贡献率大于80%(本文为84.07%)的原则提取了12个主成份。第三步,对确定的主成份进行因子正交旋转使每个因子负载最大化,便于各产业在集群间的分配。第四步,通过旋转后提取了12个主成份,每一个主成份都可以看做一个大的产业集群,然后根据相关系数矩阵中系数的大小把每一个特定的产业分配到不同的产业集群中。如表1所示:河南40个产业部门中有12个部门已经形成了产业集群。

产业集群分类研究

产业集群分类运用的是多元统计分析中的聚类分析法。聚类分析是依据样品之间的相似性进行分类的多元统计分析方法,本文采用分层聚类法,这是目前国内外使用较多的一种研究方法。其基本指导思想是先将n个样本各自看成一类,然后规定样本之间的距离和类与类之间的距离,选择距离最小的两类并成一新类,计算新类和其他类的距离,再将距离最近的两类合并,直至所有的样本都成一类为止。本文在上述主成份分析的基础上进行分层聚类,即把提取出来的12个主成份当做样本进行聚类,分层聚类后12个主成份可以分成四类大的集群。即:轻工业集群,包括主成份1、2和7;商业服务业集群,包括主成份4和5;重工业集群,包括主成份8、9、10、11和12;社会服务业集群,包括主成份3和6。如图1所示。

结论

结合主成份分析分析和聚类分析可知,河南目前存在四类大的产业集群,即:轻工业集群、重工业集群、商业服务业集群和社会服务业集群。其中,轻工业集群包括了服装皮革羽绒及其他纤维制品制造业集群、机械工业集群和邮政业集群。相关联的产业有农业、食品制造及烟草加工业、纺织、仪器仪表及文化办公机械制造业、交通运输设备制造业、电气机械及器材制造业、交通运输及仓储业、信息传输、计算机服务和软件业等。重工业集群包括建筑业集群、非金属矿采选业集群、煤气生产和供应业集群、金属冶炼及压延加工业集群和煤炭采选业集群。相关联的产业有交通运输及仓储业、信息传输、计算机服务和软件业、化学工业、电子及通信设备制造业、石油加工及炼焦业、金属矿采选业、金属制品业、电力及蒸汽热水生产和供应业等。商业服务业集群包括住宿和餐饮业集群以及文化、体育和娱乐业集群。相关联的产业有租赁和商务服务业、旅游业、其他社会服务业、造纸印刷及文教用品制造业等。社会服务业集群包括综合技术服务业集群以及自来水的生产和供应业集群。相关联的产业有科学研究事业、批发和零售贸易业、石油和天然气开采业、教育事业等。

综上所述,河南省尽管在四大部类、12个部门、36个产业中存在产业集群,但是很多产业集群都是依托于农村或小城镇发展而成,尚处于集群形成的初级阶段,规模较小,且多集中于一些技术含量不高的皮革、纺织、服装、社会服务业、旅游业等劳动密集型行业,进入壁垒非常低,在人才、资金、技术、创新能力和企业间关联等方面均存在极大不足,从而导致集群整体竞争力不强。因此,河南产业集群的未来发展必须做好以下几个方面的工作才能不断提高其整体竞争力。一是要依托核心城市进行产业集聚区的统筹规划,增强集群的区位优势和辐射能力。二是要建立健全为产业集群发展服务的基础设施和中介服务机构,为产业集群发展创造良好的环境。三是要建立健全技术创新体系,提高产业集群自主创新能力。四是要强化产业集群间的分工协作,完善产业链,促使产业集群专业化。五是要依托龙头企业,加强企业间联合,实施品牌战略增强河南产业集群的全国辐射力。

参考文献:

1.王今.产业集群的识别方法及实证研究[J].科学与科学技术管理,2004(11)

2.李广志,李同升等.产业集群的识别与选择分析―基于陕西省产业集群的研究[J].人文地理,2007(6)

3.王怡然.产业集群识别与分类[J].商业时代,2008(36)

4.张建华.产业集群的识别标准研究[J].中国软科学,2006(3)

5.刘爱雄,张高亮,朱斌.对产业集群竞争力来源的理论分析[J].科学学与科学技术管理,2006(1)

6.王丽敏.区域特色产业集群的培育和发展[J].企业活力,2007(11)

7.冯德显.产业集群及其对河南经济发展影响[J].地域研究与开发,2003(3)

聚类分析论文篇6

关键词:模糊聚类分析;房地产企业;核心竞争力;编网法

中图分类号:F293.3 文献标识码:A

研究者常常需要对一个地区的多个房地产企业进行分类,传统的方法是根据研究的目的选取少数几个指标对各企业进行人为的分类,其分类结果往往偏离实际情况。本文采用模糊聚类分析法,按房地产企业的核心竞争力设置指标,将核心竞争力特征类似的房地产企业归为一类,将不同特征的企业区分开,其分类结果可以为房地产企业管理层和投资商提供参考,具有一定的理论价值和现实意义。

一、模糊聚类分析

模糊聚类分析是以传统的聚类分析为理论基础,按待辨识对象的属性的亲疏关系进行软划分的一种多元统计方法。它把一个没有类别标记的样本集按某种准则划分成若干个子集(类),使相似的样本尽可能归为一类,而不相似的样本尽量划分到不同的类中。

1、建立指标体系。本文按照房地产企业的核心竞争力对房地产企业进行分类。核心竞争力最早是由C.K.Prahalad和Gary Hamel于1990年在《企业核心竞争力》一文中提出的,他们指出“核心竞争力是在一组织内部经过整合了的知识和技能,尤其是关于怎样协调多种生产技能的整合了的知识和技能”。房地产企业的核心竞争力是一种合力,最终表现在土地储备能力、技术创新能力、人力资源能力、资源整合和开发能力、企业品牌效应等方面。考虑这些因素,再结合企业的一般特点,本文选取总资产、资产结构(固定/流动)、年销售额、土地储备、管理与科技人才比、高职称人数占员工总数比、品牌度等7个指标来建立房地产企业核心竞争力指标体系。

2、数据标准化。根据模糊矩阵的要求,需要将数据标准化。设n为待分类对象的个数,m为表征对象特性的指标个数,则:

查F临界值表得F?琢(?琢常取0.05)。在满足F>F?琢的所有情形中,差值F-F?琢的最大者所对应的分类即为最佳分类。

二、实例分析

选取某市8家有代表性的房地产开发公司为研究对象,用前文所建立的指标体系来表征其核心竞争力,各企业的具体情况,如表1所示。(表1)

故X分为7类:{A,E},{B},{C},{D},{F},{G},{H}。

同理,当0.70

将表1中的数据代入公式(4)计算各方案的F值,查出各方案的临界值F0.05,结果如表2所示。(表2)

三、结论

上述分类结果中,8家房地产开发公司各自成类和全部并为一类没有实际应用价值,不予考虑。其他的6个分类方案中,只有当0.59

按核心竞争力对房地产企业进行模糊聚类分析,不仅将具有相同特征的企业并到了一块,而且将不同特征的企业区分开来,其分类结果充分反映了各企业在核心竞争力方面的特点。进行聚类后,处于同一类的企业在认识到自身特点的同时,可以在制定发展战略、提升自身核心竞争力方面相互借鉴;另外,对于投资商而言,将欲投资的企业聚类后,可以在分类结果中根据投资的目的和企业的特点做进一步的比较和分析,为最终的投资决策提供依据。

(作者单位:西安建筑科技大学管理学院)

主要参考文献:

[1]高新波.模糊聚类分析及其应用[M].西安:西安电子科技大学出版社,2004.

[2]C.K.Prahalad and Gary Hamel.The Core Competence of the Corporation[J].Harvard Business Review,1990.

[3]梁保松,曹殿立.模糊数学及其应用[M].北京:科学出版社,2007.

聚类分析论文篇7

关键词:模糊聚类分析;房地产企业;核心竞争力;编网法

研究者常常需要对一个地区的多个房地产企业进行分类,传统的方法是根据研究的目的选取少数几个指标对各企业进行人为的分类,其分类结果往往偏离实际情况。本文采用模糊聚类分析法,按房地产企业的核心竞争力设置指标,将核心竞争力特征类似的房地产企业归为一类,将不同特征的企业区分开,其分类结果可以为房地产企业管理层和投资商提供参考,具有一定的理论价值和现实意义。

一、模糊聚类分析

模糊聚类分析是以传统的聚类分析为理论基础,按待辨识对象的属性的亲疏关系进行软划分的一种多元统计方法。它把一个没有类别标记的样本集按某种准则划分成若干个子集(类),使相似的样本尽可能归为一类,而不相似的样本尽量划分到不同的类中。

1、建立指标体系。本文按照房地产企业的核心竞争力对房地产企业进行分类。核心竞争力最早是由c.k.prahalad和gary hamel于1990年在《企业核心竞争力》一文中提出的,他们指出“核心竞争力是在一组织内部经过整合了的知识和技能,尤其是关于怎样协调多种生产技能的整合了的知识和技能”。房地产企业的核心竞争力是一种合力,最终表现在土地储备能力、技术创新能力、人力资源能力、资源整合和开发能力、企业品牌效应等方面。考虑这些因素,再结合企业的一般特点,本文选取总资产、资产结构(固定/流动)、年销售额、土地储备、管理与科技人才比、高职称人数占员工总数比、品牌度等7个指标来建立房地产企业核心竞争力指标体系。

2、数据标准化。根据模糊矩阵的要求,需要将数据标准化。设n为待分类对象的个数,m为表征对象特性的指标个数,则:

查f临界值表得f?琢(?琢常取0.05)。在满足f>f?琢的所有情形中,差值f-f?琢的最大者所对应的分类即为最佳分类。

二、实例分析

选取某市8家有代表性的房地产开发公司为研究对象,用前文所建立的指标体系来表征其核心竞争力,各企业的具体情况,如表1所示。(表1)

故x分为7类:{a,e},{b},{c},{d},{f},{g},{h}。

同理,当0.70

将表1中的数据代入公式(4)计算各方案的f值,查出各方案的临界值f0.05,结果如表2所示。(表2)

三、结论

上述分类结果中,8家房地产开发公司各自成类和全部并为一类没有实际应用价值,不予考虑。其他的6个分类方案中,只有当0.59

按核心竞争力对房地产企业进行模糊聚类分析,不仅将具有相同特征的企业并到了一块,而且将不同特征的企业区分开来,其分类结果充分反映了各企业在核心竞争力方面的特点。进行聚类后,处于同一类的企业在认识到自身特点的同时,可以在制定发展战略、提升自身核心竞争力方面相互借鉴;另外,对于投资商而言,将欲投资的企业聚类后,可以在分类结果中根据投资的目的和企业的特点做进一步的比较和分析,为最终的投资决策提供依据。

(作者单位:西安建筑科技大学管理学院)

主要参考文献:

[1]高新波.模糊聚类分析及其应用[m].西安:西安电子科技大学出版社,2004.

[2]c.k.prahalad and gary hamel.the core competence of the corporation[j].harvard business review,1990.

[3]梁保松,曹殿立.模糊数学及其应用[m].北京:科学出版社,2007.

聚类分析论文篇8

中图分类号:F830.9 文献标识码:A

文童编号:1005-913X(2016)09-0098-03

一、问题的提出

一般来说,股票投资的分析方法可分为三种,即宏观分析、中观分析和微观分析。宏观分析指对国民经济、政治文化等来进行分析,微观分析指对公司层面的分析,中观分析介于二者之间,是对整个行业和地区的分析。板块分析主要属于中观分析和微观分析。基于此,本研究从服装鞋板块切人,以理性投资为出发点,期望采用聚类分析的方法对公司的财务指标进行分析,以甄选出未来较有投资价值的股票,做到理性投资。

二、聚类分析在服装鞋类股票板块中的应用

(一)聚类分析的原理

聚类分析也叫分类分析或数值分类,是用数学的方法来研究和处理给定对象的分类,即对同类型对象抽象出其共性,从而形成类。聚类分析是先将最相似的两个变量聚为一小类,再去与最相似的变量或小类合并,如此分层依次进行。要进行聚类分析就要首先建立一个由某些事物属性构成的指标体系,人选的每个指标必须能刻画事物属性的某个侧面,所有指标组合起来形成一个完备的指标体系,相互配合共同刻画事物的特征。简单的说,聚类分析的结果取决于变量的选择和变量值获取的两个方面。变量选择越准确,测量越可靠,得到的分类结果越说明能描述事物各类间的本质区别。

(二)股票板块的聚类分析

判断一个上市公司是否具有投资价值,其财务指标可以说是最重要的因素。在财务指标中,净利润和净利润增长率表明了该公司的发展速度是强还是弱,也从侧面反映了公司的未来发展前景,净资产收益率指表明了公司盈利能力的强弱,资产负债率表示公司总资产中有多少是通过负债筹集的,是评价公司负债水平的综合指标,体现了公司现金流动性的强弱,这几个指标基本可以概括上市公司在财务指标上的表现,因此本研究将用这五个财务指标对服装鞋板块进行聚类分析,对其进行层次划分,发现绩优股。

(三)服装板块的聚类分析

1.相关原始数据,见表1。

2.聚类分析方法和步骤。对于本研究中的问题,拟利用SPSS系统聚类分析的Q型聚类方法(个案聚类),对选取的41支服装鞋板块股票2011年的财务数据进行分析。其中个案距离采用平方欧氏距离,聚类方法采用平均组间链锁法,由于不同变量间存在较大的数量级的差别,因此对数据变量采用z得分值标准化的方法进行标准化,在输出结果结果设置中,选择显示冰柱图和树形图。

3.聚类分析的结果分析。表2显示的是系统聚类分析的类成员聚类表,从表中可以知道类别从3到7时的个案所属的类别。当类别为5时,根据图表可知,中国服装和美尔雅是一类,红豆股份是一类,其他样本分属其它三类。

表3是系统聚类的凝聚状态表。表中,第一列表示聚类分析的第几步;第二、三列表示本步聚类中哪两个个案聚成一类;第四列是个案距离;第五、六列表示本步骤类中参与聚类的个案的是个案还是小类,0表示个案,非0表示由第几步聚类生成的小类参与本步骤类;第七列标识本步骤的结果将在以下第几步中用到。

从表中可以看出,在聚类分析的第一步中,个案序号为16(闰土股份)和40(际华集团)据成一小类,它们的距离(平方欧氏距离)是0.443,这个小类将在第4步用到。同理,聚类分析的第二步,序号为15的个案(凯撒股份)和序号为32的个案(大杨创世)又进行聚类,并且将在第10步用到。最终,41个个案最后聚成了一个大类。

图1所示的聚类分析的树形图显示了在系统聚类的过程中,从每个个体为单独的一类逐步合并,一直到全部合并成一大类,整个过程都在树形图中得到了体现。

图2是一副纵向显示的冰柱图。从该图可以很容易的看出任何类数时的分类结果。

三、结果讨论

表4为各分类样本指标的均值描述。从该表可以看出不同样本的特点,并且基于该表,我们还可以得出判断,并得出相应的结论。

第一类股票:低收益,成长能力极差,负债水平高,回款较快。总体来说,没有任何投资价值。

第二类股票:收益一般,成长能力一般,资产负债率处于较低水平,汇款压力较大。总体来所,总体来说,这类股票投资意义不大。

第三类股票:本类股票所有的指标都是正值,赢利能力指标属于较好水平,这类股票有着高收益,高成长性,股本扩张能力强的特点,具有较高的投资价值。

第四类股票:赢利水平很强,经营状况较好,但是成长性一般,可以谨慎持有。

第五类股票:低收益,低成长,负债率高,回款极度困难,基本认定属于垃圾股。

四、结论

上一篇:初中音乐教学论文范文 下一篇:数控论文范文