基于数据分布特征的网页聚类算法

时间：2022-08-13 04:16:51

基于数据分布特征的网页聚类算法

摘要：该文提出了一种基于数据分布特征的网页聚类算法。根据每一个数据点对整个集合空间的影响力，计算数据之间的影响函数，然后计算局部最大特征点，最后划分出类别。实验结果表明，该网页聚类算法是可行的。

关键词：影响函数；分布特征；聚类

中图分类号：TP18 文献标识码：A 文章编号：1009-3044（2013）30-6894-02

互联网的信息呈现爆炸式增长，云计算，大数据研究也正受到国内外学者的关注。作为信息检索，信息挖掘，搜索引擎的一项基础工作，文档聚类算法一直是国内外学者研究的重点，聚类算法有很好的应用前景和研究价值。

国内外学者对聚类算法的研究已经有多年的历史，聚类算法可分为采用划分的方法、采用层次的方法、采用密度的方法和采用网格的方法。如DBSCAN[1]，OPTICS[2]是采用密度的方法，STING[3]和WaveCluster [4]是采用网格方法。李睿[5]提出了一种基于局部标签树匹配的改进网页聚类算法，利用标签树中模板节点和非模板节点的层次差异性，根据节点对布局影响的大小赋予节点不同的匹配权值，使用局部树匹配完成对网页结构相似性的有效计算。

常用的文本聚类算法是基于词语的统计信息，很难表述文档的语义信息，中文文档中多义词和同义词的现象相当普遍，这就很容易造成聚类结果不准确。该文提出了基于数据分布特征的网页聚类算法。根据每一个数据点对整个集合空间的影响力，计算数据之间的影响函数，然后计算局部最大特征点，最后划分出类别。

第二部分是基于数据分布特征的网页聚类算法，第三部分是具体的实验与结果分析。

1 基于数据分布特征的网页聚类算法

3 结束语

本文提出了一种基于数据分布特征的网页聚类算法。根据每一个数据点对整个集合空间的影响力，计算数据之间的影响函数，然后计算局部最大特征点，最后划分出类别。下一步我们会进一步分析和提高该聚类算法的准确度。

参考文献：

[1] Ester M， Kriegel H P， Sander J， et al. A density-based algorithm for discovering clusters inlarge spatial databases with noise.， in Proc. 2nd Int. Conf. on Knowledge Discovery and Data Mining（KDD）[C].2000.Pages： 495-501.， Portland， OR， AAAI Press， 1996：226-231.

[2] Ankerst M， Breunig M M， H.-P. Kriegel， etc. OPTICS： Ordering Points to Identify the Clustering Structure.， in Proc. ACM SIGMOD Int. Conf. on Management of Data（SIGMOD’99） [C]. Philadelphia， PA，1999：49-60.

[3] Wang W，Yang J， Muntz M. STING： A statistical information grid approach to spatial data mining.， in Proc. 1997 Int. Conf. on Very Large Data Bases （VLDB’97） [C]， 1997：186-195.

[4] Sheikholeslami G.， Chatterjee S. and Zhang A.， WaveCluster： A wavelet-based clustering approach for multidimensional data in very large databases. The VLDB Journal[J]. 8（4）， February， 2000， pp.289-304.

[5] 李睿，曾俊瑀，周四望.基于局部标签树匹配的改进网页聚类算法[J].计算机应用，2010（3）.

基于数据分布特征的网页聚类算法

文档上传者

热门推荐更多>

精品范文更多>

基于数据分布特征的网页聚类算法

文档上传者

热门推荐 更多>

精品范文更多>

热门推荐更多>