医药信息文本分类系统征选择模块的研究

时间:2022-06-13 06:58:01

医药信息文本分类系统征选择模块的研究

摘要:自动文本分类技术是组织和管理医药信息的一个有效的办法。本文主要针对医药信息的自动文本分类系统展开研究,重点研究如何根据医药领域的特点进行有效的特征选择,提出了使用文档频率DF和互信息MI相结合进行医药特征选择的方法。另外,本文还构建了一个医药信息语料库作为医药信息自动文本分类系统的训练集和测试集,该语料库包含五个类别,600篇文本。实验证明,该方法能够有效提高医药文本分类系统的分类速度和精度。

关键词:文本分类;特征选择;医药信息

中图分类号:TP391文献标识码:B文章编号:1009-3044(2008)30-0531-03

Research of Feature Selection in Medical Information Text Categorization

YUAN Jian-feng, ZHANG Qi-rui

(College of Medical Information Engineering, Guangdong Pharmaceutical University, Guangzhou 510006,China)

Abstract:Automatic text categorization is a viable method to organize and manage the medical information. This paper reports the study of text categorization system on the medical information, and proposes a method of feature selection which combines DF with MI. In addition, this paper constructs a dataset of medical information as the training set and test set in our experiments, which includes five categories and 600 documents. The experimental result shows that our method can efficiently improve the classification performance of medical information classification system.

Key words:Text categorization; Feature selection;Medical information

1 引言

医药领域中的信息量增速是十分惊人,据不完全统计,每5~7年,医药领域的信息就会出现翻倍。如何准确有效地利用庞大的医药信息资源,成为医药信息管理人员的研究重点。通过使用医药文本自动分类技术,可以使医院、医药网站和医药专业学校等方便的利用网络资源,通过文本分类系统对网络和本地的医药信息文档进行精确查找、有效的组织和高效的管理。

文本分类简单的说就是给定分类体系,将文本分到某个或某几个类别中[2]。文本分类技术是大规模文档数据处理的关键技术,基于人工智能技术的文本分类技术可以依据文本的语义将大量的文本进行自动分类。医药信息文本分类系统就是基于文本分类技术的原理,更加侧重于医药信息方面的类别区分特征,以医药信息类文本为训练语料库作为机器学习的基础,从而达到自动地为文档集合中的每一篇医药文档确定类别的软件系统。

2 医药信息文本分类系统征选择模块的设计

2.1 医药信息文本分类系统设计流程

文本分类属于一种典型的有教师的机器学习问题,一般分为训练和分类两个阶段。文本分类系统的模型结构如图1所示。鉴于对系统模型的分析,可以直观的看出特征降维对于系统的重要性。特征降维是跨越训练过程与分类过程的,也就表明特征降维是影响文本分类系统分类精度的关键因素。实现最佳的特征降维的方法就是使用特征选择方法,也就是说利用特征选择算法在最大程度上对特征维数进行删减,同时又保留权重大的有效特征,以此来提高系统的分类质量和分类速度。

2.2 特征选择方法

特征选择的功能是去除文本中不能表示信息的词,以提高分类效率和减少计算复杂度。其基本思想通常是构造一个评价函数,对特征集的每个特征进行评估,评价分数高的特征保留,去掉那些评价分数低的特征,起到从简求精的效果[1]。

下面介绍几种常用的算法。

词条的文档频率是指:在训练语料中出现该词条的文档数。采用DF作为特征抽取是基于以下基本假设:DF值低于某个阈值的词条是低频词,它们不含或含有较少的类别信息。

文档频率可表示为:

(2)

信息增益是指词为整个分类所能提供的信息量,当信息增益小于某个预定的值时,就要去掉这个词。信息增益定义为某一特征在文本中出现前后的信息熵之差。

CHI统计方法度量词条t和文档类别c之间的相关程度,并假设t和c之间符合具有一阶自由度的X2分布。词条对于某类的X 统计值越高,它与该类之间的相关性越大,携带的类别信息也较多。

在文本分类中的实验期望交叉熵与信息增益相似,也是一种基于概率的方法。所不同的是信息增益要求计算所有特征属性的值,而期望交叉熵则只计算出现在文档中的单词[3]。

2.3 相关评测资源设计

特征选择方法的效果检验需要一个统一专业的语料库。由于目前国内还没有标准的、开放的训练语料集,本文将构建一个具有一定医药信息的代表性的语料库。

按照国际疾病分类编码第十版作为参考,对常见疾病的相关症状、知识或事例法规分成类别。

索引

传染病和寄生虫病

肿瘤

神经系统疾病

呼吸系统疾病

循环系统疾病

眼和附器疾病

耳和乳突疾病

精神和行为障碍

内分泌、营养和代谢疾病

血液及造血器官疾病和某些涉及免疫机制

消化系统疾病……

3 特征选择的实际应用效果的评测及分析

3.1 特征选择的测试效果与分析

为评价分类效果,本文采用最通用的性能评价方法:召回率R(recall)、准确率P(precision)、和F1度量[4]。

本文的医药信息语料库中暂选取传染病和寄生虫病、肿瘤、神经系统疾病、呼吸系统疾病、循环系统疾病五类文档,其中训练语料(训练集)和测试语料按照2:1的比例来划分,训练语料集总括约400篇文本,每类约80~100篇文档,测试用的待分文本分为四组,每组中有50篇,当中每类别各10篇。在相对充足的前提假设条件下,保证分类结果的准确性。

首先把医药信息文本语料库中的5个疾病类别共400篇,进行分类训练,然后测试待分类语料组,需要四次以上的测试,取其平均值作试验结果。

由于语料库中文本的长度不尽相同,为求平均效果,以特征数的选取则不能固定维数,需要采用百分比来进行,以下实验结果均使用文本的10%作特征选择比例。得出对比数据如图2所示。

分析实验结果,我们可以得出如下结论:

1) 不使用特征选择的分类系统的分类精度很低,而且分类时间相对长。原因:特征维数太高,提交到分类器的任务比较繁重。

2) 对比结果,发现使用特征选择算法IG的分类效果最好,具有相当的稳定性。方法CHI下相对一般。DF和MI的效果较差。

3.2 DF+MI组合的特征选择方法的理论原理及实验效果

在单独的特征选择方法比较中,MI的效果最差,究其原因可能:MI算法没有考虑特征词出现的频度,这样的结果就导致了MI 算法不选择高频的有用词而很有可能选择稀有词作为文本的最佳特征 。针对这些约束,我们认为对互信息方法后分类精度的提高策略:增加特征空间的维数,来提取足够多的特征信息,这样的解决策略会带来时间和空间上的额外开销。据其定义,认为这些低频词携带着较为重要的类别特征信息,因此对它有不同程度的倚重。当训练语料库不够齐全时,特征集中必然会存在着大量的出现文档频率较低的词条,其中较低的文档频率导致了它们必然的归属于少数类别。但从选取出来的特征词的观察发现,大多数为平时较稀有的生僻词语,但很少一部分确实带有较为重要的类别特征信息,多数只是具有少量的类别特征信息,甚者是噪音词。

通过这个想法,我们发现和MI互信息都处于单独使用分类精度低的DF文档频率方法的优点正好是对特征词出现频率的大小作为选择依据的,所以决定用DF的方法先过滤掉低于设定阀值的低频词,从而消除MI互信息对低频词的倚重,再使用MI对剩余的词条进行打分,并对词条的互信息量进行排序,筛选出权重词条构成特征空间,也就是特征集。

由DF文档频率和MI互信息一起使用的方法并不会产生额外的工作量,所以对系统效率的影响微乎其微。理论上也就解决了MI互信息的缺点,也发挥了DF文档频率的优点,相得益彰。

因此,本文将DF+MI作为特征选择方法应用于KNN分类器中,进行实验得出结果,如图3所示。

结果证明经过合并的DF文档频率方法和MI互信息方法具有更稳定的分类效果,而且分类时间也少,具有较好的分

类效率。

4 结束语

各种特征选择算法都具有其特性及优缺点,对于不同的语料库又会出现不同的实验结果,但是,各种特征选择算法的分类效果区间还是比较明显的。本文的实验和分析证明,在医药信息文本分类系统中,采用这种合并了DF文档频率和MI互信息的方法是特征选择方法的理想选择,无论在分类效率和分类精度都具有明显的优势。基于所有的实验数据基础,结合了DF+MI的组合的特征选择方法直接应用于医药信息文本分类系统具有很强的实用价值。

参考文献:

[1] 寇苏玲,蔡庆生.中文文本分类中的特征选择研究[J].计算机仿真, 2007, 24(3): 86-89.

[2] Fabrizio Sebastiani. Machine learning in automated text categorization[J]. ACM Computing Surveys, 2002, 34(1): 1-47.

[3] 王卫玲,刘培玉,初建崇.一种改进的基于条件互信息的特征选择算法[J].计算机应用, 2007, 27( 2):33-36.

[4] 张启蕊,张凌,董守斌,等. 基于免疫算法的文本分类研究[J]. 微计算机信息, 2007, 23(8-3): 210-212.

注:本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文

上一篇:电子政务信息安全保障机制探讨 下一篇:基于食堂信息的数据挖掘应用初步设计