一种改进的互信息特征选择方法

时间:2022-10-25 11:03:12

一种改进的互信息特征选择方法

摘要:特征选择是中文文本自动分类领域中极其重要的研究内容,其目的是为了解决特征空间高维性和文档表示向量稀疏性之间的矛盾

>> 一种改进的基于条件互信息的特征选择算法 一种结合文档频率和互信息的特征项提取方法 改进的互信息特征选择方法在垃圾邮件检测中的应用 基于二次Renyi熵的正则化互信息特征选择方法 基于互信息的医学图像配准中改进的采样方法 基于改进互信息和邻接熵的微博新词发现方法 一种改进的文本特征选择算法 基于互信息的医学图像配准中的优化算法的改进 改进的基于二阶互信息的配准技术 改进的互信息量动画视频关键帧提取算法 基于邻域互信息和[K]均值的基因选择算法 互信息驱动的有限元医学图像配准方法 浅析平均互信息量求解方法 基于互信息的高斯指纹方案 基于互信息的微博新词发现算法 基于互信息的统计语言模型平滑技术 一种基于位置的改进中文文本特征选择 一种改进的时间序列特征模式提取方法研究 一种改进的基于切片的可视面片选择方法 一种基于群体增量学习算法的文本特征选择方法 常见问题解答 当前所在位置: ),我们把其中的数据平均分成两半分别组成训练集TanCorpTrain和测试集TanCorpTest。

3.2 评价标准

文本分类中普遍使用的性能评估指标有查全率R(Recall)、查准率P(Precision)、F1测试指标、宏平均F1和微平均F1等。查全率=被正确分类的文本数/被测试文本总数;查准率=正确分类的文本数/被分类器识别为该类的文本数;对于一次测试,准确率和查全率一般是成反比的。提高准确率,查全率会下降;提高查全率,准确率会下降。F1指标综合了P和R两个指标,可以对分类器进行整体评价,如公式(4)所示:

F1=2 × P × R / (P + R)(4)

宏平均F1和微平均F1是以两种不同的平均方式求得的全局F1指标。

3.3 分类器及实验

K最近邻居算法(KNN)是文本分类中比较著名的经典分类算法,我们应用KNN分类器进行了实验,其中概率估算方法采用基于词频统计,特征选择方式采用全局选取;

实验比较结果如表1以及图1、图2所示。

从表1以及图1、图2的实验数据可以看出,在相同的训练集和测试集条件下,改进的互信息方法所取得的分类效果远高于未经改进的互信息方法。这说明了在计算MI值时加上特征项频率的条件限制,能有效地过滤低频词,并且计算所得的那些互信息负值大的特征项,对文本分类同样具有重要意义。

4 结束语

互信息是常用的一种特征评估函数,但在实际的中文文本分类中其分类精度一直较低。该文分析了其影响分类精确度的两个因素,提出了一种改进的特征选择方法,该方法考虑了特征项在当前文本中出现的频率以及互信息值为负数情况下的特征选取,从而能更有效地过滤低频词,在文本自动分类器KNN上的实验表明该方法极大地提高了分类精度。

参考文献:

[1] Lewis D D.An evaluation of phrasal and clustered representations on a text categorization task[C].Proceedings of 15th ACM International Conference on Research and Development in Information Retrieval (SIGIR-92),1992:37-50.

[2] Kohavi R,John G H.Wrappers for feature subset selection[J].Artificial Intelligence Journal,1997,97(1-2):273-324.

[3] Aha D W,Bankert R L.A comparative evaluation of sequential feature selection algorithms[C].Proceedings of the 5th International Workshop on Artificial Intelligence and Statistics,1995:1-7.

[4] Church L W. Hanks P K.Word association norms,mutual information and lexicography[C].Vancouver,Canada:Proceedings of ACL27,1989:76-83.

[5] Yang Yiming,edersen J O.A comparative study on feature selection in text categorization[C].Proceedingsof the 14th International Conference on Machine Learning (ICML-97),1997:412-420.

上一篇:在线考试系统在计算机语言教学中的应用 下一篇:应用型工程数据库系统中性能优化技术研究