基于GN算法的文献聚类方法研究

时间:2022-05-23 11:50:23

基于GN算法的文献聚类方法研究

摘要 文献是人类文化传播不可或缺的记录形式,文献结构研究的意义重大,有利于促进信息获取、知识交流和学术研究。本文将GN算法应用于文献聚类的研究当中,介绍了GN算法的步骤和文献聚类的过程,最后进行了聚类模型的演示,实验表明该文献聚类方法是有效的。

关键词 文献聚类;GN算法;网络图;子图凝聚度

中图分类号TP39 文献标识码A 文章编号 1674-6708(2013)83-0194-02

0 引言

文献是用文字、图形、符号记录人类知识的一种载体,通常理解为图书、期刊等各种出版物的综合,是记录、积累和传播知识的有效手段。随着文献数字化的发展,为了从海量文献中获取所需的信息,人们早就已经开始了对文献结构的研究。文献之间存在着引文关系,每篇文献都会引用多篇参考文献,而本身也会被其他文献所引用。文献之间的联系并不是均匀的,在文献所属的知识领域、作品本身的内容以及作者的影响力等因素的综合作用之下,某些核心文献必然会被其他相关文献大量引用,而另一些文献可能无人问津[1]。

文献聚类就是按照一定的聚类模型,划分不同的文献组合,使得同组文献具有较高的相似度,不同组文献之间的相似度较低。基于引文关系,在对文献结构的分析上,大都采用网络图的理论和方法,建立文献之间的标识与索引,以各种数据挖掘模型发现文献之间的隐性关系。Chen利用三维虚拟技术开发出一套表示共引关系的图标,并分析了大型引文网络结构[2];Howard D.White和Xia Lin等人用SOM算法实现了共引聚类和概念聚类分析的文献网络图[3];周军、苏新宁进行了基于数据仓库的引文分析系统研究[4];杨建林、孙明军利用引文索引数据挖掘学科交叉信息[5];王吴基于关联规则挖掘学科间相关性[6]。

1 基于GN的文献聚类

1.1 GN算法相关概念

聚类方法大致可以划分为如下几类:划分方法、层次方法、基于密度的方法、基于网格的方法、基于模型的方法、高维数据的方法和基于约束的聚类等[7]。在文献结构分析领域,比较常用的是层次聚类方法,其中最适合的是GN算法。

GN算法是Girvan和Newman于2002年提出的一种基于中介度的分裂层次聚类算法[8],通过不断地从网络图中移除连接不同子图之间的边,达到将整个网络图中分解为若干个子图的目的。Newman等人对美国一所大学空手道俱乐部的34个成员之间的社会关系进行了为期两年的观察,构建了成员之间的网络图,利用GN算法很好的找到了真实社团划分,研究结果显示,GN算法对于网络图的子图挖掘具有很好的实用价值。

1.2 文献的网络图表示

1.3 文献聚类建模

基于GN算法的文献聚类模型从文献网络图出发,使用引文关系的中介度M作为子图分割的依据,使用子图凝聚度Q评价文献划分结果。GN算法的思想如下(假设该文献网络图中有n个文献,m个引文关系):

1)使用中介度算法计算文献网络图中每个引文关系的中介度值M;

2)移除M值最大的引文关系,使得文献网络图被划分出新的子图;

3)检验当前的子图凝聚度Q是否达到阀值;

4)如果不是,则重复步骤1;

5)如果满足,则将此聚类结果作为模型的最终结果输出。

3 结论

本文介绍了文献之间的引文关系,讨论了文献网络的有向图表示,对文献聚类的思路以及GN算法的步骤进行了详细阐述,最后通过实例展示了基于GN算法的文献聚类过程。本文对文献聚类的研究还处于初步探索阶段,面对与日俱增的文献,GN算法在数据量以及动态性方面尚具有不足之处,在今后的研究工作中,还需要综合学习和引入其他聚类方法,提升文献聚类的效率和效果。

参考文献

[1]陈祖琴.基于数据挖掘的引文分析――利用模拟日志分析进行相关文献推荐.西南大学,2008.

[2]Chen C.Visualizing semantic spaces and author co-citation networks in digital libraries.Information Processing and Management, 1999(5):401-420.

[3]Lin X.Map displays for information retrieval. Journal of the American Society for Information Science,1997(48):40-54.

[4]周军,苏新宁.基于数据仓库的引文分析系统研究.情报学报,2002,21(3):290-294.

[5]杨建林,孙明军.利用引文索引数据挖掘学科交叉信息.情报学报,2004,23(6):672-276.

[6]王吴.基于关联规则挖掘研究学科间相关性.现代图书情报技术,2005(3):23-28.

[7]Jiawei Han, Micheline Kamber.数据挖掘概念与技术(第二版).机械工业出版社,2007.

[8]马朝阳.基于SNA的网络核心及社团结构挖掘研.大连交通大学,2009.

上一篇:桥梁索结构热浸镀锌防腐处理措施 下一篇:改变结构受力体系加固技术质量检验评定体系研...