基于改进SVM的文本混沌性分类优化技术实现

时间:2022-09-22 12:35:07

基于改进SVM的文本混沌性分类优化技术实现

摘 要: 当前的文本分类方法无法较好地处理海量文本以及文本特征空间数据,不能打破计算机处理性能和内存的约束,实现文本混沌性分类。而云计算平台可向用户提供需要的运算能力和存储空间。提出一种优化SVM的云计算环境下文本混沌性分类方法,设计Hadoop开源云计算系统,通过该系统中的Map Reduce模型对分类过程进行处理,提高分类的效率。采用优化SVM分类方法将混沌文本分类二次规划过程中的不等式限制变换成等式限制,提高海量文本混沌性分类精度。实验结果表明,所设计分类方法具有更高的处理效率,可以对海量文本数据进行准确的分类。

关键词: 云计算; 文本分类; 混沌分类; 优化SVM

中图分类号: TN911?34; TP301 文献标识码: A 文章编号: 1004?373X(2016)20?0039?05

Abstract: The current text categorization methods are unable to deal with massive amounts of text and text feature space data better, and can't break the constraints of computer processing performance and memory and realize the chaotic text classification. The cloud computing platform can provide the computing capacity and storage space for users, so an optimized SVM based text chaos classification method effective in cloud computing environment is put forward. Hadoop open source cloud computing system was designed. The classification process is dealt with by Map Reduce model of the system to improve the classification efficiency. The optimized SVM classification method is used to convert the inequality constraints in the quadratic programming process of text chaos categorization into the equation constraints, so as to improve classification precision of massive chaotic texts. The experimental result shows that the classification method has higher treatment efficiency, and can classify the massive text data accurately.

Keywords: cloud computing; text classification; chaos classification; optimized SVM

0 引 言

随着互联网技术的快速发展,互联网中的文本数量巨增,对这些海量文本进行有效分类,从中采集有价值信息,成为相关人员分析的重点问题[1?3]。当前的文本分类方法无法较好地处理海量文本以及文本特征空间数据,不能打破计算机处理性能和内存的约束、实现文本混沌性分类。而云计算平台可向用户提供需要的运算能力和存储空间。云计算环境下的文本混沌性分类方法成为分析的热点[4?6]。

传统的文本分类方法存在一定的缺陷,文献[7]提出基于Map Reduce的分布式潜在语义搜索方法,采用并行化K?means算法将文档矩阵划分成不同分块,再采用潜在语义搜索方法对不同分块进行文本分类,该方法的运算量大,需要消耗大量的资源。文献[8]依据统计模型完成文本分类,但需要假设训练数据和检测数据具有相同的分布规律,但当文本数据量瞬间增加或降低时,会导致分类的文本数据丢失。文献[9]通过聚类采集可信方法以及主动学习塑造分类器的方法,从待分类文本数据汇总过滤可信正例,将剩下的文本当成可信反例,实现文本的有效分类。该方法分类精度高,但容易受到文本混沌性的干扰,存在一定的局限性。文献[10]采用非线性流形学习方法对文本降维,获取文本特征规律,但该方法获取的文本特征单一、扩展性差。

针对上述方法的弊端,提出一种优化SVM的云计算环境下文本混沌性分类方法,其Hadoop开源云计算系统,通过Map Reduce数据处理模型对文本进行分类,采用优化SVM分类方法提高海量文本混沌性分类精度。

1 云计算环境下HDFS的结构分析

云计算环境下的海量文本在进行分类时,对计算机处理性能以及内存量提出较高的要求,需要塑造云计算平台,为用户提供所需计算能力以及存储空间。因此,需要了解云计算系统的结构,再通过Map Reduce模型完成文本分类。Hadoop为开源云计算系统,是一种分布式运算框架,该系统的关键模块是HDFS和Map Reduce。Map Reduce也是一种并行简化的并行计算模型,由 Map 和Reduce过程组成,分别进行任务的分解和结果的汇总。采用该模型可以方便用户开发出分布式的并行程序,完成海量文本数据的计算。HDFS分布式文件系统是Hadoop 分布式计算的存储基础,该系统具有高容错性,适合云计算环境下大数据集文本的分类应用。HDFS 包括一个 Name Node 和很多个Data Node。Name Node 管理云计算环境中的云数据,并将云数据反馈给客户端。Data Node对实际文本数据进行保存,完成文件的 I/O 处理,HDFS的结构示意图如图1所示。

1.1 Map Reduce模型逻辑架构的设计

采用Hadoop开源云计算系统中的Map Reduce模型,可以完成海量文本数据的并行运算架构,如图2所示。

Map Reduce框架包括一个Master,Reducer和多个 Mapper,其实现文本混沌性分类的过程包括分割过程、Map塑造基本分类器过程以及Reduce集成过程。分割过程采用变换的抽样手段,将文本混沌数据D分割成m 个子集[D1,D2,…,Dm];在Map塑造基本分类器过程中,各 Map 任务采用优化SVM分类算法在文本数据集[Di]中塑造基本的分类器[Ci],其中[1≤i≤m];在 Reduce合并过程中,将m个基本分类器集合成生成分类器C。

1.2 Map Reduce模型分类过程实现

云计算平台下利用Map Reduce模型对文本进行分类处理,以提高文本分类的效率。Map Reduce执行文本分类的流程如图3所示。

图3所示的Map Reduce模型对海量文本数据集的运算包括映射(Map)过程和集成(Reduce)过程。

1.3 Map Reduce分类模型的优化设计

云计算环境下的文本训练集间无关联性,进行文本分类训练前后间相互独立,以此完成对文本分类训练过程的并行操作。采用Map Reduce数据处理模型对混沌文本进行分类过程,只进行宏观的数据分类,但为了增强文本分类精度,还需采用优化SVM算法对文本进行分类。

该算法是一种求解松弛变量以及限制因子的过程:将文本分类的二次规划不等限制过程,变换成等式变换过程,极大提高了文本分类精度,优化SVM文本混沌性分类算法示意图如图4所示。

2 实验结果与分析

仿真实验在6台计算机构成的集群上设置Hadoop 模拟云计算平台,通过该平台检测本文文本分类方法的性能优劣。将其中1台计算机当成Name Node以及Job Tracker 服 务 主 节 点,其他5台计算机当成Date Node 和Task Tracker 服务从节点。根据 Hadoop 项目标准部署手段设置Hadoop 0.2版本的集群,如图5所示。

2.1 不同方法的分类时间对比

设置云计算平台中map.tasks.maximum 和 reduce.tasks.maximum的值为2,确保每个节点上执行两个Map过程或两个Reduce过程。本文数据集来自百度实验室资料库,大小为195 MB。其中有娱乐、房产、时尚、体育、影视、教育、文化、政务8种类型文档,不同类别文档数为1 850。采用Imdict?chinese?analyzer分词工具,将实验语料库中的文本依据3∶1的比例划分成训练集合检测集,并对非线性流形分类方法和本文方法在云计算平台上的文本分类效果进行对比实验。两种方法对于不同数量节点的分类时间如表1所示。

分析表1可得,本文方法对同一实验文本进行分类过程汇总,分类时间远远低于非线性流形分类方法,因为本文方法将处于两个支持向量间的样本,也就是对模糊性的样本点的运算进行忽略,极大提高文本分类效率。

2.2 分类测试混淆矩阵建立

表2为本文方法测试输出的混淆矩阵的详细分类结果,并提供了分类的准确率和召回率。

分析表2可知,本文方法的分类总识别率是86.3% 。其中,文化类的文本分类精度最低,被误判成教育类;其他类别文本的分类精度都较高。说明本文方法取得了较好的分类效果。

2.3 不同算法下小数据量与大数据量分类时间性能消耗比对

为了验证云计算平台下本文方法文本分类性能,实验检测本文方法和非线性流形分类方法小数量和大数据量两组数据的分类情况,结果分别如图6和图7所示。

分析图6可知,对小数据量文本进行分类时,本文方法的分类略低于非线性流形分类方法,但随着数据量的增加,两种方法间的差距不断增大,因为在数据量较低情况下,总体文本数据分类的预操作消耗时间低, Map节点和Reduce节点间的通信和调控消耗时间低,两种方法都可实现文本的高速分类,但是随着数据量的增加,本文方法在处于大数据文本分类上的优势逐渐显现出来。

分析图7可知,在对大数据量文本进行分类时,随着文本量的大幅度增加,非线性流形分类方法的分类时间消耗逐渐增加,几乎无法完成运算任务;而本文方法的分类时间远远低于非线性流形分类方法,具有较高的处理效率。

仿真实验证明,随着文本输入的逐渐增加,本文方法的文本分类效果不断增强,对云计算环境下的大数据量的输入文本具有更好的分类效果。

3 结 论

本文提出一种优化SVM的云计算环境下文本混沌性分类方法,并通过仿真实验证明,所设计分类方法具有更高的处理效率和精度,可以对海量文本数据准确的分类。

参考文献

[1] 刘露,彭涛,左万利,等.一种基于聚类的 PU 主动文本分类方法[J].软件学报,2013(11):2571?2583.

[2] 庄福振,罗平,何清,等.迁移学习研究进展[J].软件学报,2015(1):26?39.

[3] Fengmei W, Jianpei Z, Yan C, et al. FSFP: Transfer learning from long texts to the short[J]. Appl. Math, 2014, 8(4): 2033?2040.

[4] 富震.基于SVM主动学习技术的PU文本分类[J].计算技术与自动化,2014(1):127?131.

[5] 张倩,李明,王雪松,等.一种面向多源域的实例迁移学习[J].自动化学报,2014(6):1176?1183.

[6] 贺飞艳,何炎祥,刘楠,等.面向微博短文本的细粒度情感特征抽取方法[J].北京大学学报(自然科学版),2014(1):48?54.

[7] 刘智,杨宗P,刘三女牙,等.采用动态特征选择的中文情感识别研究阴[J].小型微型计算机系统,2014,35(2):358?364.

[8] WEI F M, ZHANG J P, CHU Y, et al. FSFP: Transfer learning from long texts to the short [J]. Applied mathematics & information sciences, 2014, 8(4): 2033?2044.

[9] SAMANTA S, TIRUMARAI S A, DAS S. Cross?domain clustering performed by transfer of knowledge across domains [C]// Proceedings of the 2013 IEEE 4th National Conf. on Computer Vision, Pattern Recognition, Image Processing and Graphics (NCVPRIPG). [S.l.]: IEEE, 2013: 1?4.

[10] PENG T, LIU L, ZUO W. PU text classification enhanced by term frequency?inverse document frequency?improved weighting [J]. Concurrency and computation: practice and experience, 2014, 26(3): 728?741.

上一篇:辛亥首义之城武汉 下一篇:定植阶段早期抗菌对机械通气VAT患者呼吸机相关...