基于模糊VSM和RBF网络文本分类方法的研究与实现

时间:2022-09-23 06:05:43

基于模糊VSM和RBF网络文本分类方法的研究与实现

〔摘要〕首先提出一种基于模糊向量空间模型和径向基函数网络的文本自动分类方法,该网络由输入层、隐层和输出层组成 :输入层完成分类样本的输入,隐层提取输入样本所隐含的模式特征,将分类结果在输出层表现出来 ;其次,构造更详细的算法推导及实施方案 ;最后,以中国期刊网全文数据库部分文档数据为例,对该方法的有效性进行验证,结果表明该方法分类效果较好。

〔关键词〕数据挖掘 特征提取 神经网络 文本分类

〔分类号〕TP391

Research and Implementation of Text Classification Method Based on Fuzzy Vector Space Model and RBF Neural Network

Zheng Fengping

Daqing Petroleum Institute Library, Daqing 163318

〔Abstract〕A classification method based on fuzzy vector space model and radial basis function network is presented in this paper. The network includes input layer, hidden layer and output layer. Input layer performs import of samples, hidden layer extracts model characters of samples and output layer presents classification results. The information of its locality in the document is considered while the keywords of model characters are extracted. The classification results of this method are more precise than that of general method because fuzzy eigenvectors are applied. Finally the availability of model and algorithms is proved by the classification of some documents in China periodical document database.

〔Keywords〕data mining characters extraction neural network document classification

文本自动分类在数据挖掘中是一项非常重要的任务。目前的分类方法分出的类是论域上的一些普通集合,即分出的类是精确的,往往不能满足实际问题的需要。因为有些实际问题往往只能分出一些模糊的类,对象属于哪个类的界限是不清楚的[1]。本文就文本分类问题提出一种基于模糊VSM和RBF网络的解决方案。文中给出了详细的算法推导及实施方案,实际应用部分证明了方法的有效性及可行性。

1文档模糊特征提取

特征提取是文本分类系统中十分关键的问题。传统VSM的特征提取方法一般不考虑特征项在文档中的位置信息,因此会影响分类精度。本文应用模糊数学思想,通过特征项在文档中的位置来反映文档主题的重要程度[2](隶属度),并根据特征项的隶属度计算特征项的频数。

1.1特征项集的构造

假设有P篇待分类文档,特征项集的构造可描述如下:

若特征项在标题和摘要(如果有的话)中出现,应给予较高的隶属度;

若特征项出现在正文中的一些“关键句”,即那些包含诸如“关键在于……”、“旨在……”、“主要目的(标)是……”等的句子,应给予较大的隶属度;

若特征项出现在引言和结论段中,应给予一定的隶属度;

若特征项出现在段首或段尾,应给予一定的隶属度;

若特征项在正文中有较高的出现频度,应随着频度的增加逐次增加其隶属度;

若一个特征项同时处于上述多种地位,则其隶属度以求和方式迭加;

若一个特征项的同义词、近义词或转义词出现时,应根据其间的语义联系大小作为该特征项的一次或部分出现统计在出现频数中;

构造特征向量时还应考虑特征项的专指度(特征项的专指度可用文档总数与含有该特征项的文档数的比值表示),专指度过低的特征项会抑制分类的精确性。

根据上述原则,模糊特征向量的构造可描述如下:

步骤一:分别对P篇文档,按①-⑧计算特征项集{T1,T2,∧,TN}中每个特征项的文档频数;

步骤二:依⑨按下式构造P篇文档的特征向量{fT(Tp1),fT(TP2),∧,fT(TpN)};(p=1,2∧,P)。

N

fT(Tpk)=VTFpklg(─+0.5)(p=1,2,∧,p;k=1,2,∧,N)

Nk

其中:VTFpk表示特征Tk在文档p中的出现频数,N表示全部训练文本中的文档数,Nk表示含有特征项Tk的文档数目。

步骤三:对以上特征向量归一化,可得p篇文档的模糊特征向量Tp={Tp1,Tp2,∧,TpN};(p=1,2,∧,p)。

在此需要指出,在对正文进行特征提取之前,必须先将正文切分成词的序列。目前,汉语正文词的切分已经取得了很好的成果,词切分正确率可达99%以上,是完全可以供实用的。

2径向基函数网络模型

径向基函数网络模型为三层结构,由输入层、隐层和输出层组成,网络结构如图1所示[3]。图1中,输入层有n个节点,隐层h个节点,输出层m个节点。(x1,x2,∧,xn)为输入模式特征向量,(y1,y2,∧,ym)为模式输出向量。wk=(w1k,w2k,∧,whk)T,(k=1,2,∧,m)为输出节点k的权值向量。RBF采用高斯函数,隐层第i个节点的输出为

3.3RBF网络训练方案

步骤一:按模糊特征提取方法构造模糊特征向量;

步骤二:按K均值算法确定聚类中心;

步骤三:初始化隐层权值和阈值;给定误差精度ε;累计迭代次数S=0;最大迭代次数M;

步骤四:由式(3)计算目标函数J,如果J<ε或s>M转步骤六;

步骤五:按式(8)-(11)修正权值和阈值;s+1s;转步骤四。

步骤六:输出学习结果;结束。

4实际应用

作为该方法的一个应用, 作者选择中国期刊网全文数据库(CNKI)作为测试样本源,根据CNKI已有的分类情况,下载了720篇文档作为测试语料库,包括:政治、经济、军事、法律、教育、体育、娱乐、环保、科技、生活、外语、计算机12个主题,每个主题的语料包括60篇文档。考虑评价与测试文档自动分类算法需要两个重要指标:召回率和正确率。按下面公式计算主题Ci的召回率recall(Ci)和正确率precision(Ci):①recall(Ci)=Tn/N,Tn为通过分类算法被正确分类为Ci类的文档数目;N为未分类之前属于Ci类的文档数目。②precision(Ci)=Tn/Cn,Tn为通过分类算法被正确分类为Ci类的文档数目;Cn为通过分类算法被分类为Ci类的文档数目。综合全部文档的特征,共抽取了96个关键词组成特征项的集合。按照前述方法构造全部语料样本的模糊特征向量。选择其中600篇作为训练集,120篇作为测试集。部分分类样本模糊特征向量的编码结果见表1。

按本文的算法,用训练集的600篇文档对网络进行自动分类训练。RBF网络的输入层节点由语料样本的模糊特征向量维数确定;隐层节点由语料样本的主题数确定;输出层节点可取语料库主题数的二进制位数。令语料库主题数为S,输出层节点数为N,则N=[log2S]+1。无监督训练时,隐层节点的初始中心可取每个主题的第一篇文档;有监督训练时的网络结构参数见表2。有监督训练结束后各主题的分类效果见表3。

由表3可以看出,召回率高的类正确率不一定高(如军事类);而召回率低的类不见得正确率也低(如娱乐类、生活类);召回率和正确率可能同时较高(如外语类、计算机类)。这说明对于自身特征不明显的召回率较低的主题类,网络尽管有较低的自识能力,但却有着较高的排斥能力;对于自身特征较明显而易于与其他类产生特征交叉的主题类,网络的自识能力较强,排斥能力较弱;而对于自身特征很明显的主题类,召回率和正确率都比较高,网络表现出了良好的分类能力。将训练好的网络用于测试集120篇文档的分类,同样显示出这种分类趋势,分类效果见表4。

由表3、表4可见,对于训练集,12个主题类中有4个分类的正确率达到90%以上,最高达93%;其余8个主题类最低为78%,平均为88%;对于测试集,有10个分类的正确率达到80%以上,其余2个主题类最低为70%,平均为84%。为便于说明问题,我们将此方法与传统分类方法作了对比。上述样本集采用基于普通VSM的BP网络分类,对于训练集平均正确率可达89%,但对于测试集平均正确率仅为73%。说明这种分类方法在文本分类方面具有一定潜力,同时具有较强的泛化推广能力,是值得推荐的一种较为实用的文本分类方法。

以上实验结果表明,基于模糊VSM模型和RBF网络的文本自动分类方法取得了很好的分类效果。同时,我们认为,在文本特征的抽取及赋值、分类模型的完善、学习算法的改进、权重评价等许多方面,还有待于进一步研究。

参考文献:

[1] 邵峰晶,于忠清.数据挖掘原理与算法.北京:中国水利水电出版社,2003:126-128.

[2] 何新贵.模糊知识处理的理论与技术(第2版).北京:国防工业出版社,1998:406-412.

[3] Hogan M T,Demuth H B, Beale M H.神经网络设计,戴葵译.北京:机械工业出版社,2002:285-310.

[4] 许少华,何新贵.一类正则模糊神经网络及在沉积微相识别中的应用.控制与决策,2002(3):332-335.

[5] 徐士良.计算机常用算法(第2版).北京:清华大学出版社,1995:95-101.

〔作者简介〕 郑凤萍,女,1965年生,副研究馆员,副馆长,数篇。

注:“本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。”

上一篇:中国图书馆学研究:危机与出路 下一篇:机构库建设的版权问题研究