基于随机森林的文本分类研究

时间:2022-10-14 01:20:17

基于随机森林的文本分类研究

摘 要:文本分类是处理和组织大量文本数据的关键技术,它一直是信息检索领域中的一个研究热点。文本分类旨在将大量文本划分到若干子类,使得各文本子类代表不同的概念主题。文章采用了一种基于随机森林的文本分类方法。该方法来源于基于决策树的机器学习,依据文本内容的分词结果进行机器学习,将文本中信息量高的词汇提取出来作为学习维度,可以准确地对文本进行分类。由于随机森林算法[1]具有高并发,快速收敛的优点,非常适合海量数据的处理。

关键词:决策树分类;机器学习;森林

1 问题分析和算法描述

随机森林可以看成是Bagging和随机子空间的结合。随机森林是由一系列的分类器组合在一起进行决策[2],期望得到一个最“公平”的学习方法。如图1所示,构造每一个分类器需要从原数据集中随机抽取出一部分样本作为样本子空间,然后再从样本子空间中随机的选取一个新的特征子空间[4],在这个新空间中建立决策树作为分类器,最后通过投票的方法得到最终决(如图1)。

图1

1.1 构建单棵决策树

(1)对于训练集S,如果训练集数据都属于一个类标签C,或S足够纯净(85%以上的数据都属于类标签C时),否则创建叶子节点,表明类标签C。

(2)否则,

・选择“最具有信息”的属性A:

・依据A来划分训练集S;

・递归的划分训练集来构造子树。

1.2 构建随机森林

・从原始数据中产生n个随机抽样。

・对于每一个抽样,训练一个未剪枝的决策树,对于每个节点,不是在所有属性中挑选分割最好的决策树,而是在m个抽样出来的属性中挑选最好的那个。

・对数据集进行预测,并搜集各个树的预测结果,以众数(出现最多的值)给出最后的预测结果。

1.3 说明

一个单词包含的信息量,用特征单词在文档中出现的频率p,和该词的反文档频率q来表示(如果一个单词在很多文档中出现的频率都很高,那么这个单词过于普遍,不足以用来表征一篇文档)。文本中词汇信息量的维度可以采“熵”来衡量,设D为用类别对训练元组进行的划分,则D的熵(entropy)表示为:

其中pi表示第i个类别在整个训练元组中出现的概率,可以用属于此类别元素的数量除以训练元组元素总数量作为估计。熵的实际意义是D中元组的类标号所需要的平均信息量。现在我们假设将训练元组D按属性A进行划分,则A对D划分的期望信息为:

在选取信息量最大的属性是我们依照公式[3]选取对样本及最大的属性A。

2 实验步骤

2.1 提取实验文档

实验采用搜狗语料库精简版,其分类体系包括几十个分类节点,网页规模约为十万篇文档。

2.2 文本特征提取、降维

采用前面提到的信息增量的办法来衡量信息的有效性,分别计算分词后各词的信息增量gain(A),对语料库中1791篇短文分词,共得到共有前4685个不同的词组,如果全部计算,则运算矩阵维数过高,需要依据gain(A)选取区分度高的词汇作为候选特征。

2.3 文本向量化

依据词在文本中出现的频率,采用tf*idf向量化对文本进行向量化。向量化结果如表1所示:

表1

按照上面描述的算法对文档进行分类。如果原始训练集S中有N篇文本,使用有放回抽样,从S中抽出N篇文本作为建立第i棵树的训练集Si,调用建立决策树过程,训练单个文本分类器。其中,如果Si有mall维特征,则随机地选取mtry维特征,并且在这mtry维特征中选取分类效果最好的一个特征A作为该结点的分裂属性。

2.4 试验结果分析及解释(表2):

表2

3 试验结果分析

依据实验结果,随机森林方法分类的平均准确率和平均查全率要优于贝叶斯方法,主要原因是排除了贝叶斯方法征互相独立的不合理假设,将对文档区分度贡献大的词(在本文中多次出现,而在其他文章中出现次数较少)提取出来作为特征,对系统进行无监督分类训练。

参考文献

[1]Svetnik V,Liaw A,Tong C,et al. Random forest: a classification and regression tool for compound classification and QSAR modeling[J].Journal of chemical information and computer sciences,2003,43(6): 1947-1958.

[2]张华伟,王明文,甘丽新.基于随机森林的文本分类模型研究[J].山东大学学报:理学版,2006,41(3):139-143.

[3]张建兵,戴新宇,陈家骏.文档分类之特征选择方法的实验比较[J].广西师范大学学报:自然科学版,2008,26(3):181-185.

[4]张海龙,王莲芝.自动文本分类特征选择方法研究[J][J].计算机工程与设计,2006,27(20):3838-3841.

作者简介:陈海利(1987-),男,河北省沧州市,同济大学软件工程专业,硕士,研究方向:数据挖掘。

孙志伟(1958-),男,辽宁省沈阳市,沈阳机床股份有限公司高级工程师,本科,研究方向:数据库优化。

庞龙(1981-),男,辽宁省沈阳市,沈阳机床股份有限公司中级工程师本科,研究方向:数据库优化。

上一篇:小型泵站施工技术探讨 下一篇:燃油加油枪主、副阀系统的分析与设计