浅析Bayesian分类的应用

时间:2022-01-22 04:33:54

浅析Bayesian分类的应用

摘要:该文阐述了贝叶斯分类在利用人工智能技术设计时的必要性和重要性,介绍了贝叶斯分类中的基本技术,给出了贝叶斯分类的优缺点和有关发展方向。举了相关的使用贝叶斯分类的例子。

关键词:数据挖掘;贝叶斯;分类

中图分类号:TP311文献标识码:A文章编号:1009-3044(2008)23-1024-02

The Application of Bayesian Classification

ZHONG Dai-jun

(Chongqing University of Arts and Sciences, Chongqing 402160, China)

Abstract: This paper elaborates the necessity and importance of Bayesian classification when designing system using the technique of artiffisal intelligence,introduced the basic technique ofBayesian classification, given the advantage and disadvantage and future of it. Explained with some sample of theapplicationg of Bayesian classification.

Key words: data mining; bayes; classification

1 引言

数据的丰富带来了对强有力的数据分析工具的需求,大量的数据被描述为“数据丰富,但信息贫乏”。快速增长的海量数据收集、存放在大型和大量的数据库中,没有强有力的工具,理解它们已经远远超出了人的能力。

分类作为数据挖掘的一种模式,可以用于提取描述重要数据的模型,通常是预测分类标号(或离散值)。例如,可以建立一个分类模型,对银行贷款的安全或风险进行分类。许多分类的方法已被机器学习、专家系统、统计学和神经生物学方面的研究者提出。

贝叶斯分类是数据分类中的一个基本技术。在大型数据库,贝叶斯分类已表现出高准确率和高速度。贝叶斯分类中又有朴素贝叶斯分类和贝叶斯信念网络。

2 什么是分类

数据分类(data classification)是一个两步过程。第一步,建立一个模型,描述预定的数据类集。通过分析有属性描述的数据库元组来构造模型。假定每个元组属于一个预定义的类,由一个称作类标号属性(class label attribute)的属性确定。对于分类,数据元组也称作样本、实例或对象。为建立模型而被分析的数据元组形成训练数据集。训练数据集中的单个元组称作训练样本,并随机地由样本群选取。由于提供了每个训练样本的类标号,该步也称作有指导的学习(即模型的学习在被告知每个训练样本属于哪个类的“指导”下进行)。它不同于无指导的学习(或聚类),那里每个训练样本的类标号是未知的,要学习的类集合或数量也可能事先不知道。

通常,学习模型用分类规则、判定树或数学公式的形式提供。例如,给定一个顾客信用信息的数据库,可以学习分类规则,根据他们的信誉度优良或相当好来识别顾客。这些规则可以用来为以后的数据样本分类,也能对数据库的内容提供更好的理解。

第二步,使用模型进行分类。首先评估模型(分类法)的预测准确率。模型在给定测试集上准确率是正确被模型分类的测试样本的百分比。对于每个测试样本,将已知的类标号与该样本的学习模型类预测比较。如果模型的准确率根据训练集评估,评估可能是乐观的,因为学习模型倾向于过分适合数据。

如果认为模型的准确率可以接受,就可以用它对类标号未知的数据元组或对象进行分类。(这种数据在机器学习文献中也称为“未知的”或“先前未见到的”数据)。

分类具有广泛的应用,包括信誉证实、医疗诊断、性能预测和选择购物。

3 Bayesian 分类技术介绍

3.1 Bayesian分类与其他分类技术的比较

基于统计的分类算法主要包括:相似度模型(Rocchio,K一近邻)、概率模型(贝叶斯)、线性模型(LLSF,SVM)、非线性模型(决策树、神经网络)和组合模型.对于这些分类算法,国内外很多研究者进行了客观评测。

分类方法可以根据下列标准进行比较和评估:

预测的准确率:这涉及模型正确地预测新的或先前未见过的数据的类标号的能力。

速度:这涉及产生和使用模型的计算花费。

强壮性:这涉及给定噪声数据或具有空缺值的数据,模型真切预测的能力。

可伸缩性:这涉及给定大量数据,有效地构造模型的能力。

可解释性:上涉及学习模型提供的理解和洞察的层次。

数据库研究界对数据挖掘的分类一直强调可伸缩性。

“贝叶斯分类的效率如何?”理论上讲,与其他所有分类算法相比,贝叶斯分类具有最小的出错率。然而,实践中并非总是如此。这是由于对其应用的假定(如类条件独立性)的不准确性,以及缺乏可用的概率数据造成的。然而,种种实验研究表明,与判定树和神经网络分类算法相比,在某些领域,该分类算法可以与之媲美。

贝叶斯分类还可用用来为不直接使用贝叶斯定理的其他分类算法提供理论判定。例如,在某种假定下,可用证明正如朴素贝叶斯分类一样,许多神经网络和曲线拟合算法输出最大的后验假定。

3.2 贝叶斯分类

3.2.1 贝叶斯定理

设X为一个类别未知的数据样本,H为某个假设,若数据样本X属于一个特定的类别C,那么分类问题就是决定P(H/X),即在获得数据样本X时,H假设成立的概率P(X)是建立在H基础之上的x成立的概率。具体公式描述如下:

3.2.2朴素贝叶斯分类(简单贝叶斯分类)

朴素贝叶斯分类方法[3]是机器学习中常用的方法之一。朴素贝叶斯分类法将训练实例I分解成特征向量W和决策类别变量C。朴素贝叶斯分类法假定特征向量的各分向量间相对于决策变量是相对独立的。对文本分类来说,假设各个单词wi和wj之间两两独立。

设训练样本集分为k类,记为C={C1,C2,…,Ck},则每个类Ci的先验概率为P(Ci), I=1,2, …,k,其值为Ci类的样本数除以训练集总样本数N。对于样本d,其属于Ci类的条件概率是P(d|Ci)。文本d有其包含的特征词表示,即d= (w1, …,wi, …,wm),m是d的特征词个数|d|,wj是第j个特征词。根据贝叶斯定理,Ci类的后验概率为P(Ci|d)

因为P(d)对于所以类均为常数,朴素贝叶斯分类器将未知样本归于类的依据,如下

文档d由其包含的特征词表示,即d=(w1, …,wi, …,wm) ,m是d的特征词个数|d|,wj是第j个特征词,由特征独立性假设,则得

式中P(wj|Ci)表示分类器预测单词wj在类Ci的文档中发生的概率。

3.3 改进的贝叶斯分类在文本分类中的应用

关键的一个技术是特征提取。文本分类征提取的步骤包括:词语切分,词频统计,加权计算和特征选择(二者通常结合在一起进行)。

在文本分类中有很多权重计算和特征选择的公式,如信息增益、期望交叉嫡、文本证据权、zx统计量等,其中最著名的是TFIDF公式.那么,权重计算和特征选择的公式究竟哪个为优呢?其实在这些公式中,关键在于特征选择时的倾向:高频词或稀有词,也就是公式中的P(w)因子起很大作用。因此,在特征选择时,理想的做法应该是充分考虑P(w)因子的作用,最好能兼顾到高权高频词和低频高权词。

有学者对TF*F和TF*IWF*IWFF公式进行了分析并作了一些改进,认为关键词在某类的权重受3个因素的影响:该词在当前类中的出现频率;该词在总语料中的出现频率;该词在不同类别之间出现频率的差异。最终得到关键词在类中的权重计算公式:

类别区别度用来表示某一个词语对于文本分类的贡献程度,即词语的领域区别程度。直观地看,如果一个词语在每一类中都比较均匀地出现,那么它对于分类的贡献几乎为零,类别区别度很低;如果某一词语只在某一类中出现,那么它对于分类的贡献很高,有的几乎可以一词定类,类别区别度也就很高了。比如,虚词“的、我、在”的类别区别度很低,而“魔兽争霸、重仓股、手机操作系统”这样的词语其类别区别度就很高。

3.4 贝叶斯信念网络

朴素贝叶斯分类假定类条件独立,即给定样本的类标号,属性的值相互条件独立。这一假定简化了计算。当假定成立时,与其他所有分类算法相比,朴素贝叶斯分类是最精确的。然而,在实践中,变量之间的依赖可能存在。贝叶斯信念网络(Bayesian belief network)说明联合条件概率分布。它允许在变量的子集间定义类条件独立性。它提供一种因果关系的图形,可用在其上进行学习。这种网络也被称为信念网络、贝叶斯网络和概率网络。

信念网络有两部分定义。第一部分是有向无环图,其每个节点代表一个随机变量,而每条弧代表一个概率依赖。如果一条弧有节点Y到Z,则Y是Z的双亲或直接前驱,而Z是Y的后继。给定双亲,每个变量条件独立于图中的非后继。变量可以是离散的或连续值的。它们可以对应于数据中给定的实际属性,或对应于一个相信形成联系的“隐藏变量”。

“贝叶斯信念网络如何学习?”在学习或训练信念网络时,许多情况都是可能的。网络结构可能预先给定,或由数据导出。网络变量可能是可见的,或隐藏在所有或某些训练样本中。隐藏素净的情况也称为空缺值或不完全数据。

如果网络结构已知并且变量是可见的,训练网络是直截了当的。该过程由计算CPT(条件概率表)组成,与朴素贝叶斯分类涉及的计算概率类似。

当网络结构给定,而某些变量是隐藏的时,则可使用梯度下降方法训练信念网络。目标是学习CPT项的值。设S是s个训练样本X1,X2,…,Xs的集合,Wijk是具有双亲Ui=uik的变量Y=yij的CPT项。Wijk可以看作权,类似于神经网络中隐藏单元的权。权的集合总称为w。这些权被初始化为随机概率值。梯度下降策略采用贪心爬山法。在每次迭代中,修改这些权,并最终收敛到一个局部最优解。

4 结束语

简要阐述了分类在数据挖掘中的位置,着重介绍了贝叶斯分类的基本技术和它的相关应用。

参考文献

[1] 史忠植.知识发现[M].北京:清华大学出版社,2002.

[2] HAN Jia-wei,Kamber M.数据挖掘概念与技术[M].范明,孟小峰,译.北京:机械工业出版社,2007.

[3] 成颖,史九林.自动分类研究现状和展望[J].情报学报,1999,18(2):20-26.

上一篇:基于Multi-agent的网络数据流软件性能测试方法... 下一篇:芯片测试的DNA计算机算法研究