属性选择分类器算法与adaboostM1算法在中草药分类的研究

时间:2022-10-23 10:08:18

属性选择分类器算法与adaboostM1算法在中草药分类的研究

【摘要】 讨论了在中草药数据分类应用中两种分类器算法:属性选择分类器算法和adaboostM1算法的分类性能的问题,在WEKA平台上实验可知,这两种经典组合分类器算法中属性选择分类器算法的分类精度比较高。

【关键词】 中草药 AdaBoostM1 WEKA

一、概述

组合分类器算法是现在比较流行的分类器算法,基本思想是利用组合的很多个单分类器来弥补单分类器对数据分类器的不足,从而提高分类器的分类性能。而属性选择分类器算法是WEKA平台上的一种传统分类器算法,本文在WEKA平台上用这两种算法对草药数据集进行分类,然后再对这两种算法的分类精度进行对比,实验表明:在实验数据集为输入样本集的情况下,属性选择分类器算法的分类精度比adaboostM1算法的分类精度高。

二、AdaBoost 算法介绍

1988 年,Kearns等在研究 PAC 学习模型时提出了一个有趣的问题:弱可学习是否等价于强可学习,即Boosting问题。如果这一问题有肯定的回答,意味着只要找到比随机猜测略好的弱学习算法,就可以将其提升为强学习算法,而不必直接去寻找通常情况下很难获得的强学习算法,这对学习算法的设计有着重要的意义。在更深入的研究中,Freund 等发现:在线分配问题与Boostin问题之间存在着很强的相似性,引入在线分配算法的设计思想,有助于设计出更实用的 Boosting算法。他们将加权投票的相关研究成果与在线分配问题结合,并在Boostin问题框架下进行对应推广,得到了著名的AdaBoost算法。该算法不再要求预知弱学习算法的任何先验知识,在实践中获得了极大的成功[1]。

三、在Weka上用AdaBoost算法及几种单分类算法对草药数据进行分类

本文所进行的实验在Weka3-7-1平台上完成,用三种草药三七、人参、西洋参的指纹图谱数据作为实验的数据集。对输入的三种草药数据集采用5重交叉验证,取其分类精度来表现它们的分类性能,分类精度越高表示分类性能越好。

属性选择分类器的参数设置如下:

基分类器为decisionstump,evaluator 是classifiersubseteval,search为linearforwardselection。

AdaboostM1的参数设置如下:

基分类器为decisionstump,numiteration为10,seed为1,weightThresold为100。

之后执行RUN界面的START指令,再进入ANALYSE界面载入文件选择分析分类精度,可得到这些算法的平均分类精度如表1所示。

四、实验结果与分析

从表1可以看出,在实验的中草药数据集中,属性选择分类器算法的分类精度大于adaboostM1算法的分类精度。

五、结论

综上所述,在中草药分类领域,在与adaboostM1算法比较下,可以利用属性选择分类器算法来提高传统分类器算法的分类精度,也说明了在特定的数据集中,一些单分类器算法的分类性能可能会比组合分类器算法高的。

参 考 文 献

[1] 曹莹,苗启广,刘家辰,高琳. AdaBoost算法研究进展与展望[J]. 自动化学报,2013,06:745-758

上一篇:集团客户专线接入技术的选择策略 下一篇:基于P2P―SIP的VoIP会议系统的研究与设计