改进的k均值算法在大学生科技创业活动研究中的应用

时间:2022-09-28 09:50:40

改进的k均值算法在大学生科技创业活动研究中的应用

摘要:对大学生科技创业活动研究的目的是为了深入挖据大学生潜力,为其提供良好的大学生科技创业环境。采用数据挖据思想建立科技创业活动研究模型,利用模型帮助学生对创业愿望进行测评,挖掘未发现的创业潜力,辅助自己的创业选择,同时对就业环境的创建起到辅助作用。

关键词:大学生科技创业;数据挖掘;聚类分析;k均值算法

中图分类号:TP312文献标识码:A文章编号:16727800(2012)009003802

1创业活动研究模型

本文对创业活动的研究,主要采用聚类对采集的信息进行挖掘处理。

假设考察创业者n项指标,则样本集X={X1,X2,…,Xn},可以用n维向量描述样本,即:Xi={Xi1,Xi2,…,Xin},其中i=1,2,…,m。创业活动研究模型如图1所示。

样本点Xij来自于调查Web上的学生填写的调查信息,对于学生创业者来说,主要想知道自己输入的一些具体信息,得知与之相匹配的创业特征,对于创业环境决策者来说,则可以根据特征分类库设置相应的政策,为创业者创造良好的环境。

样本数据预处理的目的是标准化数据,清除垃圾数据,删除与挖掘无关的样本属性内容。经过预处理后的样本数据,就能进行数据聚类分析。

2数据样本聚类分析

聚类是将数据集中在某些方面相似的数据成员进行分类组织的过程,是一些数据实例的集合,集合间的数据元素彼此相似而区别其它集合的数据元素。对于聚类分析需要一个能度量两个数据点相似度的函数,最著名的函数为K均值算法。

2.1K均值算法的基本思想及描述

基本思想:首先随机选择K个数据对象,每个对象初始代表为一个聚类分组的平均值或中心;对剩余的每个对象根据其与各聚类分组中心的距离,将它赋给最近的分组;然后重新计算每个分组的平均值。不断重复该过程,直到准则函数收敛。

算法描述如图2所示。

算法中x为数据样本点,K表示聚类数目。终止条件可以是以下任何一个:①没有(或最小数目)数据点被重新分配给不同的聚类;②没有(或最小数目)聚类中心再发生变化;③误差平方和(SSE)局部最小,SSE=∑k[]j=1 ∑x∈ cjdist(x,mj)2。

通过K均值算法把创业活动数据分为K个聚类分组,样本点到聚类中心的距离公式为:dist=(xi,mj)= xi,mj=[KF(](xi1-mj1)2+(xi2-mj2)2+…+(xir-mjr)2[KF)], 其中mj为属性出现概率最大的数据点。形成聚类分类库后,可以挖掘出每一组的特征,同时对于采集到的新样本,利用距离公式找到样本点到聚类分组中心点距离最近的聚类分组,新样本数据聚类后重新计算样本中心点。

2.2孤立数据点清除

k均值算法没有考虑孤立点,然而孤立点却是真实存在的。消除孤立点的方法:首先扫描一次数据集,计算每一个数据对象与其临近对象的距离,累加求其距离和,并计算均值。如果某个数据对象的距离和大于距离和均值,则视该点为孤立点。把这个对象从数据集中移除到孤立点集合中,重复直到所有孤立点都找到。最后得到新的数据集就是聚类的初始集合。

K均值聚类算法对于初始中心点的选择是随机的, 这样就会导致聚类的结果可能不是最优解, 因此初始中心点的选择对于聚类结果的影响很大, 选取好的初始中心点在效率上和结果上要优于选取不合适的初始中心点,算法描述见图3。

2.3随机选K个数据点作为初始的聚类中心

对于初始中心点的选择,其思想为:首先整理移除孤立点后的数据集D, 数据数目为N,令m=1。找出数据集D中所有数据对象两两之间的距离最近的2个数据对象形成集合A2; 比较A2中每一个数据对象与数据对象集合D中每一个对象的距离, 在D中找出与Am中最近的数据对象,优先吸收到Am中, 直到Am中的数据对象个数到达一定数值,然后令m=m+1。再从D中找到对象两两间距离最近的2个数据对象构成Am,重复上面的过程, 直到形成k个对象集合。这些集合内部的数据是相似的, 而集合间是相异的,算法描述见图4。

3结语

采用K均值算法对学生创业活动样本数据进行聚类

分组时,首先对数据进行孤立点处理,然后采用临近归并法选K个数据点作为初始的聚类中心,排除孤立点和随机初始样本点的聚类影响。结果表明能帮助学生对自己的创业活动进行有效测评,对学生的创业选择、创业准备等有极大的帮助,有利于学生提高创业竞争力。同时创业环境制造者(比如:劳动及用人部门)可以了解学生创业的分布情况,使其在创业项目、创业政策制定方面更加科学有效。

参考文献:

[1]BING LIU,俞勇,薛贵荣.Web数据挖掘[M].北京:清华大学出版社,2009.

[2]廖燕玲,韦艳玲.数据挖掘在学生职业能力分析中的应用[J].电脑知识与技术,2010(33).

[3]傅德胜,周辰.基于密度的改进K均值算法及实现[J].计算机应用,2011(2).

[4]陆声链,林士敏.基于距离的孤立点检测研究[J].计算机工程与应用,2004(33).

[5]曹志宇,张忠林,李元韬.快速查找初始聚类中心的Kmeans算法[J].兰州交通大学学报,2009(6).

[6]顾洪博,张继怀.基于孤立点和初始质心选择的k 均值改进算法[J].长江大学学报:自然科学版,2009(1).

上一篇:WinCE身份证识别系统设计 下一篇:微课理念下的教师教育技能实训方案研究