基于行业分类标准的债券新闻自动多分类

时间:2022-08-17 10:29:32

基于行业分类标准的债券新闻自动多分类

【摘要】 本文首先介绍了文本分类的研究背景包括传统的人工分类以及基于文本数据挖掘相关技术的文本分类,接着根据实际需求通过跟踪多家债券主体相关的新闻,基于行业分类标准,完成债券新闻的自动多分类。新闻多分类处理流程包括数据集获取、数据集的预处理、分类算法设计与实现、评估及稳定性检测等方面。

【关键字】 行业分类标准 多分类 数据预处理 人工标记 SVM 交叉验证 算法稳定性

一、研究背景

自上个世纪80年代以来,信息化的浪潮开始席卷全球,特别是互联网技术的不断普及与完善,信息技术迅速地渗透到社会的各个行业领域。近几年,随着网络技术的迅猛发展以及电脑的普遍使用,电子化文档的规模得到了急剧的增长,这些文档都包含了大量的非结构化信息,为了充分利用这些非结构化数据,我们便需要使用相关的文本数据分析技术对其进行处理和利用,当数据挖掘的对象完全由文本这种数据类型组成时,这个过程便是文本数据挖掘[1]。事实上,最近研究表明公司信息有80%包含在文档中[2]。文本数据挖掘正逐渐成为一个热门领域,吸引各大高校以及专家学者不断深入研究。

传统的文本分类是依靠大量的人工完成的。在不同的行业领域,主要依靠专业的人员针对特定的领域进行人工标注与分类。如政府机关人员针对公文的分类、早期图书馆对图书的分类归档,专利部门对专利的分类。著名的国际网站Yahoo曾雇佣一百多名来自各个领域的专家,他们即使满负荷地工作,也没能对每天不断涌现在互联网上新网页进行标注与分类[3]。

本文根据它说债券资讯模块开发的实际需求,通过跟踪4528家债券主体的相关新闻,基于文本分类的相关算法如朴素贝叶斯、K最近邻算法[4]、支持向量机[5]等,最终完成它说债券资讯模块的新闻自动分类的功能。

数据源介绍

本文的新闻文本数据来源于第三方数据库万德数据库的相关表如公司表、行业负面表、行业正面表等,数据采集的规模,采集的时间等具体见如下表1:

二、数据预处理

本文对文本数据做了如下的数据预处理:将每一条数据库记录转化为txt文档;将文本的编码从非UTF-8编码转化为UTF-8编码;过滤掉小于1kb的文档、英文文档及无意义文档;去掉html标记、换行符、多余空格。

三、人工标记

接着,对经数据预处理后的新闻文本数据,按照行业分类标准表根据文档内容对样本数据按分类主题进行人工分类。最终的分类结果如下表2:(Result――19/19/4988)

四、基于多种分类算法新闻模块实现

文本分类算法是构成一个成熟的文本分类系统不可或缺的一个非常重要的部分,基于高效地文本分类算法可以提高文本分类的时效性及准确度。目前比较常用的文本分类算法包括K-最近邻算法、朴素贝叶斯、支持向量机等等。下面简单介绍一下朴素贝叶斯、k最近邻算法及支持向量机。

(1)朴素贝叶斯分类算法。它基于一个前提假设:即在给定的文本类集合中,文本间的属性是独立的,互不影响。对文本分类,就是求该文本在文本类集合中各个类别的概率,概率值最大的那个类别就作为该文本的类别。

(2)K-最近邻计算的是待分类的文本与所有训练文本之间的距离,然后将距离按照从小到大进行排序,返回前K个距离最小的样本,统计这K个样本所属的类别数目,最后将类别数目最大的类别作为待分类文本的类别。

(3)支持向量机,即SVM,它由V.Vapnik提出。可以应用于非线性分类及模式识别,在解决非线性、小样本及高维模式识别等问题中具有很大的优势。它的主要思想是在样本空间中寻找一个最优超平面,从而最大化的将两大类划分开来。

本文使用经数据预处理后剩下的4988条新闻作为最终的样本集,并对样本集进行中文分词处理,构造样本集文本对象,构建样本集TF_IDF词向量空间,然后使用相关分类算法进行预测分类结果。具体的算法流程图如下图1:

五、文本分评价性能指标

在完成文本分类的训练与测试之后,往往需要对分类算法进行分类性能评估,以确定一个算法的优劣及进行算法之间的性能比较。目前常用的文本分类性能评价指标包括召回率、错分率、准确率、F1-score等。

1、召回率(Recall Rate,也叫查全率):是检索出的相关文本数和文本库中所有相关文本数的比率,衡量的是分类系统的查全率。

召回率(Precision)= 系统检测到的相关文本 / 系统所有相关的文本总数

2、错分率为另外一个角度对召回率的刻画,满足错分率+召回率=1

3、精度(Precision,也称为准确率):是检索出的相关文本数与检索出的文本总数的比率,衡量的是分类系统的查准率。

精度(Precision)= 系统检索到的相关文本 / 系统所有检索到的文本总数

4、F1-score综合考虑了精度以及召回率,是两者的协调评价指标。

本文按照20%测试集、80%训练集,10%测试集、90%训练集,20%测试集、100%训练集三种不同的数据集随机切分方式对分类结果进行了交叉验证(cross_validation),最终的分类结果如下表2:

六、债券新闻多分类稳定性检测

评价一个分类系统的好坏不仅仅考虑系统分类的准确度等指标还要考虑分类系统的稳定性。因此本文对分类算法做了算法稳定的检测工作。数据检测来源为companynews表,取样时间为2016年09月03日到2016年09月10日,持续一个星期,取样的标准为每次获取数据最新更新时间的前一天的数据,数据量较大时随机取样10%作为测试样本,并对其进行人工分类形成最终测试样本集。

最终针对各种分类算法的稳定性检测结果如下表3所示,由下表可知综合比较贝叶斯,knn,svm三种算法,svm在文本多分类的稳定性上较好。

参 考 文 献

[1]王伟强, 高 文. Internet 上的文本数据挖掘[J ] . 计算机科学, 2000 , 27 (4) : 32 - 37.

[2] AH - HWEE TAN. Text Mining : The state of the art and the challenges[ Z] . PAKDD’99 Workshop on Knowledge discovery from Advanced Databases ( KDAD’99) , Beijing , 1999.

[3] J.M Gomez.Text Representation for automatic Categorization.In Proceeding of Eleventh Conference Of the European Chapter Of the Association for Computational Linguistic,2003

[4]亚南.KNN文本分类中基于遗传算法的特征提取技术研究[D].中国石油大学,2011.

[5]毛雪岷,丁友明.基于语义引导与支持向量机的中文文本分类[J].情报杂志,2007,26(1 1):56-58

上一篇:中国电信LTE800M频率重耕和天馈实施的研究 下一篇:多样化培训教育强化职工队伍建设