基于数据分布特征的网页聚类算法

时间:2022-08-13 04:16:51

基于数据分布特征的网页聚类算法

摘要:该文提出了一种基于数据分布特征网页聚类算法。根据每一个数据点对整个集合空间的影响力,计算数据之间的影响函数,然后计算局部最大特征点,最后划分出类别。实验结果表明,该网页聚类算法是可行的。

关键词:影响函数;分布特征;聚类

中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2013)30-6894-02

互联网的信息呈现爆炸式增长,云计算,大数据研究也正受到国内外学者的关注。作为信息检索,信息挖掘,搜索引擎的一项基础工作,文档聚类算法一直是国内外学者研究的重点,聚类算法有很好的应用前景和研究价值。

国内外学者对聚类算法的研究已经有多年的历史,聚类算法可分为采用划分的方法、采用层次的方法、采用密度的方法和采用网格的方法。如DBSCAN[1],OPTICS[2]是采用密度的方法,STING[3]和WaveCluster [4]是采用网格方法。李睿[5]提出了一种基于局部标签树匹配的改进网页聚类算法,利用标签树中模板节点和非模板节点的层次差异性,根据节点对布局影响的大小赋予节点不同的匹配权值,使用局部树匹配完成对网页结构相似性的有效计算。

常用的文本聚类算法是基于词语的统计信息,很难表述文档的语义信息,中文文档中多义词和同义词的现象相当普遍,这就很容易造成聚类结果不准确。该文提出了基于数据分布特征的网页聚类算法。根据每一个数据点对整个集合空间的影响力,计算数据之间的影响函数,然后计算局部最大特征点,最后划分出类别。

第二部分是基于数据分布特征的网页聚类算法,第三部分是具体的实验与结果分析。

1 基于数据分布特征的网页聚类算法

3 结束语

本文提出了一种基于数据分布特征的网页聚类算法。根据每一个数据点对整个集合空间的影响力,计算数据之间的影响函数,然后计算局部最大特征点,最后划分出类别。下一步我们会进一步分析和提高该聚类算法的准确度。

参考文献:

[1] Ester M, Kriegel H P, Sander J, et al. A density-based algorithm for discovering clusters inlarge spatial databases with noise., in Proc. 2nd Int. Conf. on Knowledge Discovery and Data Mining(KDD)[C].2000.Pages: 495-501., Portland, OR, AAAI Press, 1996:226-231.

[2] Ankerst M, Breunig M M, H.-P. Kriegel, etc. OPTICS: Ordering Points to Identify the Clustering Structure., in Proc. ACM SIGMOD Int. Conf. on Management of Data(SIGMOD’99) [C]. Philadelphia, PA,1999:49-60.

[3] Wang W,Yang J, Muntz M. STING: A statistical information grid approach to spatial data mining., in Proc. 1997 Int. Conf. on Very Large Data Bases (VLDB’97) [C], 1997:186-195.

[4] Sheikholeslami G., Chatterjee S. and Zhang A., WaveCluster: A wavelet-based clustering approach for multidimensional data in very large databases. The VLDB Journal[J]. 8(4), February, 2000, pp.289-304.

[5] 李睿,曾俊瑀,周四望.基于局部标签树匹配的改进网页聚类算法[J].计算机应用,2010(3).

上一篇:基于密度聚类分析的相关算法研究 下一篇:Maya粒子的渲染属性杂谈