过程神经元网络在网页自动分类中的应用研究

时间:2022-08-30 01:55:16

过程神经元网络在网页自动分类中的应用研究

摘要:针对信息挖掘中的网页自动分类问题,提出了一种基于向量空间模型和过程神经元网络的分类方法。网络由输入层、隐层和输出层组成。输入层完成分类样本的输入,隐层提取输入样本所隐含的模式特征,将分类结果在输出层表现出来。以因特网上旅游网页分类为例验证了该方法的有效性。

关键词:数据挖掘;网页分类;神经网络;学习算法

中图分类号:TP393文献标识码:A文章编号:1009-3044(2008)12-20ppp-0c

Process Neural Network and its Application in Web Document Automatic Classification

SUI Chang-fu

(Teaching Administration Office of Daqing Petroleum Institute at Qinhuangdao,Hebei 066004 China)

Abstract: Aiming to web document classification in data mining, a classification method is presented in this paper. The method is based on vector space model and process neural network. The network includes input layer, hidden layer and output layer. Input layer performs import of samples, hidden layer extracts model characters of samples and output layer presents classification results. The availability of model and algorithms is proved by classification of some web documents in Internet.

Key words: Data mining; Web document classification; Neural network; Learning algorithm

1 引言

目前,数字图书馆及与之相关的数据仓库和数据挖掘技术研究已成为全球性的一个热点。这是Internet和万维网发展的必然结果。文档自动分类在数据挖掘中是一项非常重要的任务。分类的目的是根据若干已知的规则,构造一个分类函数或分类模型(也常称作分类器),把数据库中的数据项映射到给定类别中的某一个。分类器的构造有统计方法、机器学习方法等[1]。统计方法包括贝叶斯法和非参数法;机器学习方法包括决策树法和规则归纳法。人工神经网络理论(Artificial Neural Network)是80年代中后期世界范围内迅速发展起来的一个前沿研究领域。该理论作为人工智能的一个重要分支领域,已显示了它活跃的生命力。除了在语言识别、自动控制等领域应用外,已有实践证明,在文档分类、聚类分析等信息挖掘领域也有着相当高的实用价值。近几年来,有关人工神经网络理论的新的研究成果不断涌现,目前我国人工智能及其他相关学科领域的专家、学者在人工神经元网络理论和应用研究方面做出了许多可喜的成绩。过程神经元网络就是很有代表性的一例。该网络模型诞生于2000年,是传统神经元网络在时域上的扩展。目前该网络基本理论已比较成熟。

基于向量空间模型的文档分类方法,文档特征向量维数一般较高(从几十维到上百维),虽然理论上三层反传播神经网络能够逼近任意非线性映射,但普通反传播神经网络对于高维映射问题往往收敛很慢,且容易发生过拟合现象,使泛化能力受到影响。在过程神经网络中,将文档特征向量看作若干个与各个类别对应的过程,将这些过程作为网络输入,从而大大降低了文档特征向量的维数。本文尝试将该网络用于基于特征向量描述的Web文档分类。

2 文档特征提取

特征提取是文档分类系统中十分关键的问题,文档分类特征选取恰当与否对文档分类的正确性和分类效率有重要影响。一个有效的特征项集,必须具备以下两个特征:(1)完全性,特征项能够体现全部文档内容;(2)可区分性,根据特征项集,能将目标文档同其它文档相区分。特征项集的构造可从构造每篇文档的模糊特征项集开始。如何根据正文的语义提取可近似表示正文语义的特征项集是一个复杂问题,严格讲除了要求理解正文的含义之外,尚需有总结概括的能力乃至有较深的领域知识才能较好地解决这个问题,这是难以用现有计算机技术来实现的。因此最好与语言学家们结合根据人类在抽取正文特征项时所遵循的一般原则进行手工抽取。

2.1 特征项集的构造

假设有P篇待分类文档,特征项集的构造可描述如下:

step 1:首先对P篇文档,进行手工抽取特征项,并记录特征项的文档频数(特征项在文档中出现的次数),构造特征项集:?C1,C2,…,Cp;然后对各特征项集进行筛选,除去频数过低的特征项。即根据给定阈值λ,滤除各篇文档中频数低于λ的特征项,此时可以得到每篇文档的特征项集合:C1,C2,…,Cp

step 2:在以上集合中,将特征项的同义词、转义词、近义词看作同一特征项,计算P个集合的并集:C=C1∪C2∪…∪Cp={T1,T2, …,TN},得到全部文档的特征项集{T1,T2,…,TN}。具体算法:令C=C1,对?Tji∈Cj(i=1,2, …Nj;j=2,3, …,p),若(Tji?C)且(?Tji?C),则C=C∪{Tji},其中,?Tji为Tji的同义词、转义词或近义词。

2.2 特征向量的构造

以特征项集{T1,T2, …,TN}为论域,根据每个特征项在某一文档中出现的频数构造该篇文档的特征向量。另外,构造特征向量时还应考虑特征项的专指度。特征项的专指度可用文档总数与含有该特征项的文档数的比值表示。专指度过低的特征项会抑制分类的精确性。因此对于专指度较高的特征项,应适当增加其文档频数;而对于专指度较低的特征项,则应适当减小其文档频数。具体构造过程可描述如下:

step 1:分别对P篇文档,计算特征项集{T1,T2, …,TN}中每个特征项在该篇文档中出现的文档频数;

step 2:按下式构造P篇文档的特征向量{fT(Tp1), fT(Tp2), …, fT(TpN),}{ };(p=1,2, …,P)。

其中:VTFpk表示特征项Tk在文档p中的出现频数,N表示全部训练集中的文档数,Nk表示含有特征项Tk的文档数目。

step 3:对以上特征向量归一化,可得p篇文档的特征向量?Tp={T(Tp1), T(Tp2), …, T(TpN),};(p=1,2, …,p)。

3 过程神经元网络

3.1 过程神经元

过程神经元由加权、聚合和激励三部分组成。与传统神经元不同之处在于过程神经元的输入和权值都是可以时变的,即可以是依赖于时间的函数。其聚合运算既有对空间的多输入聚合,也有对时间过程的积累。因此它是传统神经元在时域上的扩展,传统神经元可以看成是过程神经元的特例[1]。单个过程神经元的结构如图1所示。输入输出关系见(1)式。

3.2 过程神经元网络模型

过程神经元网络是由若干个过程神经元按一定的拓扑结构组成的网络。其拓扑结构如图2所示[2]。

其中,中间层(隐层)各单元由图1所示神经元组成,并设有m个单元。输出层为一非时变神经元。

3.3 学习算法

过程神经元网络的学习可借鉴梯度下降法,如BP算法[3]。若假设输出层中g(u)=u, θ=0,则:

将xj(t)、wji(t)用沃尔什基函数展开[4](在保证展开精度的前提下只取前L项):

由基函数的正交性,(2)式可简化为:

网络误差函数可取为:

由梯度下降法,网络权值学习规则为:

其中i=1,2, …,m;j=1,2,,m;l-1,2, …,L;;α、β、γ为学习速度。

4 文档分类实施方案

假设有P篇已知类别的文档,分类实施方案的构造过程可描述如下:

(1)实施特征抽取,构造特征向量;

假设待分类模式共有n类,每类抽取m个特征项,则模式空间为n维。记xkij为第i类中第j个特征项第k篇文档中的文档频数,编码后的输入向量如(9)式:

(2)对(9)式实施离散沃尔什基函数展开,构造展开后的系数向量:

其中:scf15.tif

(3)初始化网络参数:层数;各层单元数;误差精度ε;学习速度α;惯性系数η;累计学习迭代次数s;最大学习迭代次数Max;

(4) 初始化过程神经元隐层权值(设有q个神经元),采用沃尔什基函数,初始化系数:

(5)初始化其他隐层及输出层权值及阀值(同传统BP网络);

(6) 按(4)式计算输出,按(5)式计算误差E;

(7)若(EMax)转(9);

(8)按(6)-(8)式修正各层权值及阀值,s=s+1,转(6);

(9)输出结果,训练结束。

上述经过训练的网络即可用于对未知类别文档的分类识别。

5 实际应用分析

我们以Internet上旅游网页作为分类文档源,参考《中国分类主题词表》中的分类情况,将旅游网页分为如下八个子类别:1.旅游景点;2.旅游指南;3.旅行社;4.宾馆饭店;5.租车服务;6.旅游交通;7.海外旅游;8.旅游综合信息。考虑评价与测试文档自动分类算法需要两个重要指标:查全率和查准率,按下面公式计算类别Ci的查全率recall(Ci)和查准率precision(Ci):

(1)recall(Ci)=Tn/N,Tn为通过分类算法被正确分类为Ci类的文档的数目;N为未分类文档之前属于Ci类的文档的数目。

(2)precision(Ci)=Tn/Cn,Tn为通过分类算法被正确分类为Ci类的文档的数目;Cn为通过分类算法被分类为Ci类的文档的数目。

对以上8个子类别通过网站搜索简体中文网页,构造出规模为1200个旅游类网页的自动分类样本集,其中800个用作训练集,400个用作测试集。综合考虑全部网页的特征及类属,共提取特征项64个(每类8个)。每类的第一个特征项为类属名称。对全部1200个网页实施编码处理。部分网页编码结果见表1。

网络输入节点为模式类别数,本例为8个;因样本数目较多,过程神经元隐层节点取30个;输出层用二进制数表示样本类别,取3个节点。误差精度ε=0.05,学习速度α=0.1,惯性系数η=0.5,限定迭代次数Max=5000。实际迭代3815次收敛。对训练集自身的平均查全率和平均查准率均达到了90%,网络的分类结果如表2所示。

将训练好的网络应用于测试集400个网页的分类,平均查全率和查准率也均达到86%以上,与训练集分类结果较为相近,说明所抽取出的文档类特征和类模式具有普遍性和有效性。关于此方法的有效性,我们与BP算法作了对比。采用三层BP网络结构,输入层64个节点,输出层3个节点。当隐层为80节点时,迭代11038次收敛,对测试集网页的识别率仅为73%;当隐层为100节点时,迭代9687次收敛,对测试集网页的识别率降为62%。说明BP网络对于高维样本的分类问题,不仅收敛速度慢,而且容易产生过拟合现象,影响了网络的泛化推广能力。而应用本文提出的方法就能较好的克服这些问题。

6 结束语

过程神经网络是神经网络领域最近提出的新模型,其输入不再是几何式的单点输入,而将输入看作一个过程,在这一点上,过程神经元网络较好的模拟了生物神经元特性。几何点式的瞬间输入只能在理论上存在,过程式输入放宽了传统神经元网络模型对输入的同步瞬时控制。使问题更为一般化。现实中很多应用可归结为此问题。过程神经元网络的输入为信息矩阵,在向量空间模型中,这为高维的文档特征向量的处理提供了可行之路。本文尝试将该模型应用于网页正文分类,达到了预期效果。今后,对过程神经元网络的理论和应用研究必将受到越来越多学者的关注。

参考文献:

[1] 何新贵,梁久祯.过程神经元网络的若干理论问题[J].中国工程科学,2000,2(12):40-44.

[2] 何新贵,梁久祯,许少华.过程神经元网络的训练及其应用[J].中国工程科学,2000,3(4).

[3] 王伟.人工神经网络原理――入门与应用[M]. 北京:北京航空航天大学出版,1995.

[4] 柳重堪.正交函数及其应用[M].北京:国防工业出版社,1982.

收稿日期:2008-03-14

注:“本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。”

上一篇:BAN逻辑及其在认证协议性质分析中的应用研究 下一篇:移动用户电子兑换券系统的设计