基于本体的文本分类研究综述

时间:2022-04-06 11:49:43

基于本体的文本分类研究综述

摘要:对近年来文本分类的研究现状及新进展进行归纳总结,基于前人的研究基础,提出一个了基于本体的文本分类通用框架,将本体

>> 基于LDA模型和SVM的文本分类研究 基于随机森林的文本分类研究 基于Bayes算法的网页文本分类研究 基于粗糙集的文本分类方法研究 基于推拉策略的文本分类增量学习研究 文本分类特征降维研究综述 基于优化类中心分类算法的文本分类研究 基于文本分类的果农短信分类 文本分类算法研究 2统计的文本分类特征选择方法的研究'> 基于χ2统计的文本分类特征选择方法的研究 文本分类及算法综述 基于潜在语义分析和改进的HS-SVM的文本分类模型研究 基于RBF神经网络的Web文本分类的研究 基于向量空间模型的文本分类系统的研究与实现 基于HowNet的VSM模型扩展在文本分类中的应用研究 基于蚁群智能算法的文本分类研究 基于KNN的中文文本分类反馈学习研究 基于模糊VSM和RBF网络文本分类方法的研究与实现 基于语言模型的藏文文本分类研究 基于K―means算法的文本分类技术研究 常见问题解答 当前所在位置:l)和结构化文本(.xml)。按文本的篇幅可划分为长文本和短文本。无论是什么类型的待分类文本,首先都要进行预处理操作,包括分词、去停用词、词根还原等,其目的是去掉对分类不起作用的噪音数据。然后从预处理后的文本中提取关键词,构成关键词词典。关键词词典的作用有两个:一是计算关键词的权重,将其表示为机器可理解的文本向量。二是利用关键词构建和扩充本体库。待分类文本集的篇幅不同,其选择的特征处理过程也不同。长文本预处理后得到的文本表示是高维稀疏的特征向量,需要选择合适算法对向量进行特征降维,去掉噪音数据,留下对文本分类有较大贡献的特征数据。对于广告标语、新闻标题等短文本进行预处理后得到低维特征向量,其中包含的索引项缺少可利用的信息,可通过从本体库中获取对分类有价值的关键词,为向量添加额外的新特征辅助分类过程。预处理模块在整个文本分类过程中起着非常重要的作用,特征向量的好与坏直接影响着文本分类的精准度和分类性能。

1.2 本体模块

本体模块位于整个分类框架的中间层,是框架的核心部分,也是整个分类系统的理论基础。本体有多种用途,可以利用本体库中的标准本体文件或是手工构建的本体作为背景知识,提供语义信息构建分类模型,也可以利用本体对特征向量进行降维(长文本)或添加主题词扩充特征向量(短文本),提高分类效率,当然本体中包含的信息越完备,取得的分类结果越准确。

1.3 分类模块

分类模块主要是利用传统分类算法或本体构建分类模型,其主要功能是实现分类,对未知文本进行判别,将其划分到所属的类别中。

2 关键技术研究动态

2.1 特征处理

近年来,特征处理过程(对高维特征向量进行降维和对稀疏特征向量进行扩充)越来越多地被人们重视,高维稀疏的特征空间中缺少对分类给力的特征项,包含过多冗余信息和噪音数据,对分类效果起反作用。从知识发现的角度看,识别出预测结果中的低维特征是非常有用的,消除无关和冗余的数据特征,提高数据挖掘的效率,改善预测精准性等学习性能。

特征降维[9]是从初始高维特征集合中选出低维特征集合,并根据一定的评估准则最优化缩小特征空间的过程,主要有特征选择和特征重构两类。特征选择的本质是对原高维特征空间的约简,即在不损伤分类精度的前提下,尽量减少特征空间中的索引项的数目,降低向量空间的维数。较为典型的特征选择方法有文档频度、互信息、信息增益、X2统计量等。Yang yiming[10-11]等人在reuters-21578和一部分Reuters Corpus Version1(RCV1)语料库上分别采用文档频度、互信息、信息增益、X2统计量等方法对特征向量进行降维,然后用Naive Bayesian, Rocchio, kNN和SVM等分类算法进行多角度实验,结果表明SVM和X2统计的组合方法优于其它的方法。特征重构[12]又称特征抽取,是基于特征项之间的语义相关性、类内文本聚合程度、类间离散程度的影响力等方面因素,对文本特征集进行压缩,把原来的特征向量转换成为一个不同的更紧凑的新低维空间。例如主成成分分析(PCA),线性区分分析(LDA),潜在语义索引(LSI)等。

还有其他降维方法,如利用通用本体和领域本体提供的概念层次语义结构实现降维。采用本体中概念及概念间的语义关系并结合潜在语义索引算法对特征空间进行降维,可以提高分类性能。文献[13]提出基于WordNet语义词典和隐含语义索引(LSI)模型的英文文本分类方法,用WordNet中语义集代替单词构成特征向量,然后利用LSI模型进一步深入挖掘语义集的概念间的深层联系,将语言知识和概念索引有效地融合到文本向量空间的表示中,对特征向量进行降维,并分别用Naive Bayes和简单向量距离算法实现分类,实验结果表明准确率都随着语义分析的深入逐步提高,充分表明语义挖掘对文本分类的重要性。文献[14]也利用WordNet通用本体和潜在语义索引算法,实现了对信息检索中的文档向量进行降维,取得较好的效果,该方法也适用于大规模的文档集。文献[15]利用潜在语义索引和领域本体实现文本特征的降维和分类,该方法适用于对领域内的文本集分类。近年来,基于分形的方法也得到人们关注[16]。采用分形的思想,可以较准确地估计出数据的本征维[17],为进一步地降维提供指导性的参考。

对于新闻标题,广告语,电影预告等短文本进行预处理后得到稀疏的特征向量,缺少对分类给力的特征项,为解决其稀疏问题除了要去掉冗余和噪音特征项外,还需要利用语义词典或本体对文本向量进行特征扩充,添加对分类起正面作用的特征项,辅助指导分类。文献[18]提出一个基于短文本的半监督的分类通用框架,适用于从Web搜索结果到医学等众多不同领域的文本分类。利用潜在主题分析模型如pLSA、LDA等和机器学习方法如最大熵和支持向量机等,从大规模外部语料库中抽取出潜在主题词扩充特征向量,提高分类器的覆盖范围。

2.2 分类模型

随着本体的发展,近年来有许多国内外学者将本体引入到文本挖掘的各个应用领域,基于本体的分类是研究热点之一,下面通过几个典型实例进一步说明该研究的特点及进展。

Gu等人[19]提出一个基于SARS本体的文本分类模型,利用本体中层次概念结构构建向量空间模型,为分类提供领域知识。同时从预处理后的文本集中抽取出主题词构成词典,用来不断扩充和完善SARS本体,一方面可以构建本体向量,另一方面可以解决传统分类方法中存在的特征向量的高维稀疏问题。基于该分类模型构建的原型系统,对200篇有关SARS信息的文档进行分类,其分类结果的精准率和召回率最高分别可达到0.93和0.95。

Probowo[20]等人根据DDC(Dewey Decimal Classification)和LCC(Library ofCongress Classification)的特点,建立了一种DDC-LCC映射关系,利用基于DDC和LCC两种分类模式的Web网页构建本体库,并映射到DDC和LCC两个分类模式,给出了DDC-LCC和基于本体的分类模式之间的映射的形式化定义。这种映射关系能够提供度量Web网页和类别的相似度的方法,并结合本体中的概念与实例的语义关系和层次结构关系,辅助对Web网页进行分类,取得较好效果。

Song[21]等人在2005年提出了一种利用Web网页中抽取的语法知识构建领域本体的方法,并利用领域本体的层次结构、概念特征及概念间的关系和属性等领域知识对Web网页分类。首先利用自然语言处理技术对Web文档进行词性标注和语法分析等预处理,抽取出重要概念术语构建层次结构,进而利用层次结构的语义关系构建领域本体。然后对从Web网页中抽取的概念术语进行权重计算构建文本向量,通过计算文本向量与本体构成的类别向量之间的相似度实现对在线的Web网页进行自动实时分类。与传统的贝叶斯分类器和TF-IDF分类器进行实验对比,分别对从雅虎的经济新闻网站抽取的Cooperatives,employment,Finance,Marketing,Organizations,Trades等几个类别的文本集进行分类实验,三个分类器的F1指标平均值分别为0.92,0.82,0.79,基于本体的分类器有效地提高了分类性能。

2007年,文献[22]提出一个基于本体的Web文档的分类方法和自动构建本体的方法,并对分类后的文档进行排序。基于WordNet的同义词集用经验模式分解EMD(Earth Mover’s Distance)算法计算概念的相似度,根据相似度得分对已有的本体进行扩充和维护,然后把本体作为类别向量对Web文档进行实时分类,最后用排序算法对分类结果中的Web文档集合进行排序,为信息检索提供基础。分别采用KNN和SVM算法对从网站上搜集的2000个Web文档进行实验,本文提出的方法得到召回率和精准率明显优于KNN方法,召回率与SVM算法相比相当略有提高,但精准率约有降低。

文献[15]提出一个文本分类的通用框架,并将潜在语义索引算法(LSI)和领域本体引入到该框架中实现对领域内文本集进行分类。潜在语义索引算法可以有效解决特征向量的高维和稀疏的问题,提高文本分类的精确度。领域本体具有丰富的领域内专用术语,可以为分类提供背景知识。利用潜在语义索引算法和领域本体实现的分类器可以有效的提高分类的性能,其精准率、召回率和F1度量值的平均值都略高于传统朴素贝叶斯分类器的实验结果。

文献[23]将本体知识作为背景知识应用到文本表示中,实现对文本的分类。对XML文本进行解析,从XML文本的元素中抽取术语构建特征向量,并充分利用XML文本的特殊结构,并对其进行标注,将文本标签及标签路径结构也作为特征用来扩展文本向量,并结合通用本体WordNet构建更丰富特征的特征向量,即将twings和tag paths的信息添加到文本向量中,并找出与twings和tag paths的信息相对应的WordNet中的同义词集合,对一词多义和多词同义现象进行词义消解。如doctor有两个词义,医生和博士,分别与WordNet中的两个同义词集{dentist, therapist, psychologist }和{professor, associated}相对应,要结合上下文的背景确定选择哪个同义词集,扩充特征向量。该方法对XML文本进行分类取得较好的分类效果。

2.3 性能评测

2.3.1 数据集

对分类模型进行性能评价的前提是在相同的运行平台上对统一的标准文本集进行实验。目前常用的标准文本集有Reuters-21578,20-Newgroups及其他文本集等。Reuters-21578 文本集是目前国际上比较常用的标准语料库[24],来源于1987年路透社的新闻专线的新闻材料,主要用于文本分类系统测试,该语料库分为135个类别,共包含21578篇文本。20-Newgroups[25]是卡内基梅隆大学的McCallum等开发的Rainbow系统的标准数据库,有20个类的新闻组讨论英文文章分别存放在20个目录下,每个目录的名字作为一个新闻组类别,每类大约1000篇文本。对于不同的分类方法进行性能评测也可以采用特定领域的文本集如茶领域文本、酒领域文本等。

2.3.2 评价指标

经过分类后可以产生四种结果,如表1所示。

其中TC表示本属于该类别,且被正确地判断为属于该类别的文本数;TW表示为本不属于该类别,却被错误地判断为属于该类别的文本数;FC表示本属于该类别,却被错误地判断不属于该类别的文本数,FW表示本不属于该类别,也被正确地判断不属于该类别的文本数。

通常采用精准率(precision),召回率(recall),正确率(accuracy),错误率(fallout),误差率(error)等评价指标对分类器的性能进行评测[26]。其公式如下:

precision=TC/(TC+FC),

recall=TC/(TC+TW),

accuracy=(TC+FW)/(TC+FC+TW+FW),

fallout=TW/(FC+TW),

error=(TW+FC)/(TC+FC+TW+FW)

要对分类器的整体性能进行评测,采用F1_Measure度量[27]指标,其公式如(1)所示。其中,β是召回率和精准率的相对权重。β等于1时两者同等重要,β大于1时,精准率更重要一些,β小于1时召回率更重要一些。

(1)

F1度量指标是对精准率和召回率两个指标的综合,分别反映分类效果的两个不同方面,它们是互为消长的关系,不可能两全其美,其精准率高,召回率低,反之亦然。根据分类实验的具体情况,在两者之间取得一个平衡点,使分类的精准率和召回率都取得较高值,β通常取值为1/2和1。

3 主要挑战及研究进展

3.1 领域本体的构建不完善

基于本体的分类方法主要是利用领域本体或通用本体对领域内的数据的描述,从中获取知识或规则指导分类,领域本体构建的完善与否将直接影响分类的性能。目前已建立了一系列的领域本体的构建工程方法,涌现出许多理论、技术、描述语言和构建工具。但是手工构建本体需要用户逐个输入大量知识,费时费力,是一项繁琐而辛苦的任务,还会导致知识获取的瓶颈,要构建完备的领域本体也是许多研究学者一直着力解决的难题。因此,如何降低构建本体的开销,根据已有数据资源实现半自动化或自动化构建本体,这是本体学习所要研究的内容,是一个具有重要研究价值的课题[28]。

3.2 领域本体可重用性差

本体的目的就是知识的重用和共享,但领域本体必须是依赖特定领域的,才能具有良好的领域知识表达能力,领域本体的可重用性一直是一个难以解决问题。

不同本体的构建者开发的本体所描述的领域可能相关或重叠,使用的建模方法、建模工具和建模描述语言也不尽相同,从而形成大量异构本体。如何在构建新本体时重用现有的本体,实现对本体的重用、更新和维护已经成为本体领域新的研究热点,本体标准化和模块化构建可以为解决本体的可重用性和面向特定领域提供一种新思路。如何找出多个已有本体之间存在的语义联系,对多个领域本体进行映射和合并,这就是本体集成所研究的内容,即集成不同组织开发的不同语言和不同组织方式的本体,以解决不同应用中的信息异构问题,也是目前研究的一个热点[29]。

3.3 通用本体缺少领域术语

较为典型的通用本体有HowNet[30],WordNet[31]等。HowNet又称知网,是一个用于自然语言处理的在线常识知识库,包含中文词典中概念之间的关系,属性之间的关系以及与中文对应的英文的概念及属性关系,常用来辅助对中文文本进行分类。WordNet是美国普林斯顿大学认知科学实验室的George A.Miller 教授负责开发的基于心理语言学规则的英文词典,它以同义词集为单位组织信息,对查询结果的演绎比较符合人类思维定式。许多研究学者根据WordNet的特点,将其应用到文本分类中作为背景知识指导分类,已经取得了一定的成果。通用本体不但可以结合分类算法构建分类模型,还可以对文本向量进行特征处理,能有效提高特征向量中的特征项对分类所起到的正面作用。通用本体是通用词汇的集合,包含的词汇量很多,涉及范围广,但缺少对特定领域的专业词汇的描述,不适合指导特定领域的文本分类。领域本体可以弥补通用本体的不足,综合采用通用本体和领域本体可以更好的提高分类的性能。

3.4 本体的推理能力利用不充分

Perez[32]等人认为本体中包含类,关系,函数,公理和实例等5个基本建模元语,可以从不同层次的形式化模式上给出领域内的概念与概念之间相互关系,提供对该领域知识的共同理解。其中公理是对本体中概念及其关系的约束,是对知识进行推理和验证的基础,而OWL(Web Ontology Language)本体描述语言是基于描述逻辑的形式化的本体描述方法,具有强大的演绎推理能力,利用推理机制进行分类并结合本体中用于描述属性和类型的词汇,会进一步提高分类效果。然而,本体中强大的机器推理机制的功能并没有完全发挥出来,对本体中概念、实例和属性等特征也缺乏深层次的语义分析,本体中概念关系、实例、属性类型等特征对分类过程所起的作用不大。如何充分利用本体所提供的机器推理机制及深层次的语义关系,实现对文本数据进行深度挖掘是研究学者关注的热点问题。

4 总结

本文提出一个基于本体库的文本分类通用框架,并分别从特征处理,分类模型和性能评测等多方面归纳总结了现有基于本体的文本分类研究中存在一些问题及研究进展,希望上述工作可以给相关的文本分类的研究提供有益的参考。

参考文献:

[1] Sebastiani Fabrizio. Machine Learning in Automated Text Categorization [J]. ACM Computing Surveys, 2002,34(1):1-47.

[2] Lewis D D. Naive (Bayes) at forty:The Independence assumption in information retrieval[C]//Proc of the 10th European Conference on Machine Learning. Chemnitz, Germany, 1998:4-15.

[3] Yang Yiming, Liu Xin. A Re-examination of Text Categorization Methods[C]//Proceedings of the 22th Annual ACM International Conference on Research and Development in Information Retrieval (SIGIR-99).Berkeley, CA, 1999.42-49.

[4] Joachims T.Text categorization with support vector machines:Learning with Many Relevant Features[C]//Proceedings of European conference on Machine learning.1998.1-7.

[5] Wiener E, Pedersen J O, Weigend A S.A Neural Network Approach to Topic Spotting[C]//Proc of the 4th annual Symposium on Document Analysis and Information Retrieval.1995.317-332.

[6] 苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究发展[J].计算机软件学报,2006,17(9):1848-1859.

[7] 孙娜.基于本体和潜在语义索引算法的文本分类方法研究[D].长春:东北师范大学,2009.

[8] Yang Xi-quan, Sun Na, Zhang Ye, et al. General Framework for Text Classification based on Domain Ontology [C]//Proc of 3rd International Workshop on Semantic Media Adaptation and Personalization, 2008:147-152.

[9] 胡洁.高维数据特征降维研究综述[J].计算机应用研究,2008-9,25(9):2601-2606.

[10] Yang Timing, Pedersen J O. A comparative study on feature selection in text categorization[C]//Fisher DH. Proceedings of the 14th International Conference on Machine Learning.Nashville:Morgan Kaufmann Publishers, 1997.412-420.

.

[11] Rogati Monica, Yang Yiming.High-Performing feature selection for text classification[C]//DavidG, Kalpakis K, Sajda Q,et al.Proceedings of the 11th ACM International Conference on Information and Knowledge Management.McLean:ACM Press,2002.659-661.

[12] 刘海峰,王元元,张学仁,等.文本分类中基于位置和类别信息的一种特征降维方法[J].计算机应用研究,2008,25(8):2292-2294.

[13] LV Lin, LIU Yu-shu, LIU Yan. Realizing English Text Classification with Semantic Set Index Method[J]. Journal of Beijing University of Posts and Telecommunications, 2006(2):22-25.

[14] Pavel Moravec, Michal Kolovrat, Vaclav Snasel.LSI vs.Wordnet Ontology in Dimension Reduction for Information Retrieval[C].Snasel C V,Pokorny J,Richta K.Dateso Technical University of Ostrava, Dept of Computer Science, 2004.18-26.

[15] Xi-Quan Yang, Na Sun. The application of latent semantic indexing and ontology in text classification[J]. International Journal of Innovative Computing, Information and Control(IJICIC),2009, 5(12):1-9.

[16] Camastra F, Vinciarelli A. Estimating the Intrinsic Dimension of Data with a Fractal-based Method[J]. IEEE Transaction On Pattern Analysis and Machine Intelligence,2002,24(10):1404-1407.

[17] Tolle c R, Mc Junkin T R, Gorisch D J.Suboptimal Minimum cluster Volume cover-based Method for Measuring Fractal Dimension[J]. IEEE Transaction Pattern Analysis and Machine Intelligence, 2003,25(1):32-41.

[18] Xuan-Hieu Phan, Le-Minh Nguyen, Susumu Horiguchi. Learning to Classify Short and Sparse Text & Web with Hidden Topics from Large-scale Data Collections[C]. WWW 2008 / Refereed Track: Data Mining-Learning, Beijing, China,2008:91-100.

[19]Huazhen Gu, Kuanjiu Zhou. Text Classification Based on Domain Ontology[J]. Journal of Communication and Computer, 2006,3(5):29-32.

[20] Prabowo Rudy, Jackson Mike, Burden Peter, et al. Ontology-Based Automatic Classification for the Web Pages: Design, Implementation and Evaluation[C]//Proc of the 3rd International Conference on Web Information Systems Engineering, IEEE Computer Science,2002.182-191.

[21] Song Mu―Hee,Lim Soo・Yeon,Kang Dong-Jin,et a1.Automatic Classification of Web Pages based on the concept of Domain Ontology[C]//Proceedings of the 12th Asia-Pacific Software Engineering Conference(APSEC’05),IEEE Computer Science,2005.645-651.

[22] Fang Jun,Guo Lei,Wang Xiao Dong,et a1.Ontology―Based Automatic Classification and Ranking for Web documents[C]//Proceedings of 4th International Conference on Fuzzy Systems and Knowledge Discovery(FSKD 2007),IEEE Computer Science.2007:627-631.

[23] Martin Theobald, Ralf Schenkel, Gerhard Weikum. Exploiting Structure, Annotation, and Ontological Knowledge for Automatic Classification of XML[C]//Data International Workshop on the Web and Databases (WebDB).San Diego, California, 2003:1-6.

[24] David D.Lewis.Reuters-21578 text categorization test collection Distribution 1.0 README file(v1.2)[EB/OL].[1997-09-06]/~lewis.

[25] McCallum,Andrew Kachites. Bow:A toolkit for statistical language modeling, text retrieval, classification and clustering[EB/OL].[1998-09-12]www.cs.cum.edu/-mccallum/bow.

[26] Xiaoxun Zhang, Xueying Wang, Honglei Guo,et al. FloatCascade Learning for Fast Imbalanced Web Mining[C].WWW 2008 / Refereed Track: Data Mining - Learning,April 21-25,2008,Beijing,China,71-80.

[27] 李保利,陈玉忠,俞士汶.信息抽取研究综述[J].计算机工程与应用,2003(10):1-5.

[28] 杜小勇,李曼,王珊.本体学习研究综述[J].软件学报,2006,17(9):1837-1847.

[29] 范莉娅,王爱民,肖田元.本体集成方法评价指标体系及其应用研究[J].计算机集成制造系统,2007,13(5):911-917.

[30] 董振东,董强.知网. HowNet. 1999-03. /

[31] Miller George A (Principal Investigator). Cognitive Science Laboratory, Princeton University WordNet 2.0. wordnet.princeton.edu/

[32] Perez A G, Benjamins V R. Overview of Knowledge Sharing and Reuse Components : Ontologiesand Problem Solving Methods[C]// Stockholm V R , Benjamins B, Chandrasekaran A. Proceedings of the IJCAI99 workshop on Ontologies and Problem Solving Methods (KRR5)1999:1-15.

上一篇:无线传感器网络入侵检测系统研究综述 下一篇:基于EXTJS的WEB客户端访问权限设置的研究