常用特征选择方法的比较研究

时间:2022-08-30 08:25:39

常用特征选择方法的比较研究

摘要:特征选择是中文文本自动分类领域中极其重要的研究内容,其目的是为了解决特征空间高维性和文档表示向量稀疏性之间的矛盾

>> 常用乳腺影像诊断方法的比较研究 特征选择算法在层次分类中的比较研究 解答选择题的常用方法 昆虫标本制作中杀死虫体的几种常用方法的比较研究 资产评估方法的比较与选择研究 蛋白质相互作用研究的常用方法进展及比较 三种常用体育综合评价方法的比较研究 多指标常用综合评价方法比较研究 常用的深层地基加固方法比较的探讨 数学选择题的结构及其常用方法举例 浅谈解高考数学选择题的常用方法 常用前列腺穿刺活检方法的比较 电力系统常用的交流采样方法比较 手机和电脑的常用连接方法比较 常用结构分析软件比较和选择 结合语义的特征选择方法 2统计的文本分类特征选择方法的研究'> 基于χ2统计的文本分类特征选择方法的研究 初中物理实验常用的研究方法 工程建设中常用焊条的选择研究 常用给排水工程管道管材的比较与选择分析 常见问题解答 当前所在位置: ),我们从其中的12的类别中选取10个类别组成训练集TanCorpTrain 和测试集TanCorpTest,概率估算方法:基于词频统计;特征选择方式:全局选取;KNN算法的K值:40;性能评估方法:微平均F1,实验比较结果如表1所示。

根据表1的实验数据,可以得出以下结论:

1) 随着特征维数的增加,分类的微平均精确度逐渐升高,当特征空间取值在1000维附近时,分类器的性能达到一个极大值。

2) 文档频数(DF)的表现相对比其它方法更稳定,特征维数大于2000维之后的微平均F1效果最好。

3) 信息增益特征选择方法(IG)与期望交叉熵(ECE)相比,两者表现相当,均优于MI,当特征空间的维数大于2000时,其效果略优于ECE 。这是因为期望交叉熵没有考虑特征未出现的情况,它忽视了特征不出现也可能对判断文本类别有贡献。

4) 卡方统计特征选择方法(CHI)要明显地高于互信息(MI),这是因为CHI克服了MI只考虑到了正相关对特征项重要程度的影响而没有考虑负相关对特征项重要程度影响的缺陷。

5) 文本证据权(WET)的分类精确度与信息增益(IG)和期望交叉熵(ECE) 相当,达到了比较好的分类效果。

6) 互信息(MI)的分类效果最差,微平均值最大只有59.28%。

3 结束语

该文在中文文本自动分类器KNN上对常用的六种特征选择方法进行了比较研究,分析了各个特征评估函数的优劣。总体上实验效果远不如英文的文本分类效果。由于中文与英文的文本分类问题具有相当大的差别,体现在原始特征空间的维数更大,文章表示更加稀疏,词性变化更加灵活等多个方面。因此,在英文文本分类中表现良好的特征选择方法未必适合中文文本分类,对中文文本分类中的特征选择方法进行系统的比较研究十分必要,如何对常用的特征选择方法进行改进,提高分类的准确率还有待进一步的研究和探索。

参考文献:

[1] David D Lewis. An evaluation of phrasal and clustered representations on a text categorizationtask. Proceedings of 15th ACM International Conference on Research and Development in Information Retrieval (SIGIR-92). 1992: 37-50.

[2] Yang Yiming, and Pedersen J O. A comparative study on feature selection in text categorization.Proceedingsof the14th International Conference on Machine Learning (ICML-97),1997:412-420

[3] 靳晓波. 基于机器学习的文本分类系统[J]. 西北工业大学学报, 2005,3:19-23.

[4] Luo Changri,He Tingting. A Vector-based Algorithm for Chinese Text Classification.The 17th Pacific Asia Conference on Language, Information and Computation October, 2003,Singapore

[5] Kenneth Ward Church and PatricK Hanks. Word association norms,mutual information and lexicography[C].In: Proceedings of ACL27,Vancouver,Canada,1989:76-83

[6] 赵选民, 徐伟. 数理统计[M].2版.北京: 科学出版社,2002.

上一篇:DRP分销管理系统的设计与实现 下一篇:选修课咨询系统的规划与设计