基于LDA的中国少数民族网络舆情监测系统的探究①

时间:2022-09-15 06:37:53

基于LDA的中国少数民族网络舆情监测系统的探究①

摘 要:随着民族地区信息化建设的不断推进,中国少数民族语言网络舆情研究也逐渐引起了大家的关注,文本分类和情感分析模块是舆情系统的重要组成部分。传统的文本分类方法主要通过统计字面上的词语重复次数,而对于文字背后的语义关联考虑甚少。该文重点介绍了一种基于LDA模型在少数民族语言(以彝文为例)网络舆情信息情感分析方面的应用,对文字隐含的主题进行建模,通过挖掘少数民族网页上的舆情信息所蕴含的主题,以及对这些主题进行情感分析,在事件全面爆发之前,采取应急措施。

关键词:主题模型 网络舆情系统 情感分析

中图分类号:G212 文献标识码:A 文章编号:1674-098X(2014)10(c)-0185-02

LDA inquiry-based Chinese minority network public opinion monitoring system

GONG Pan WANG Jiamei YANG Xiaowei

(Yunnan Minzu University, Electrical and Information Engineering, Kunming,Yunnan,650500,China)

Abstract:With the development of ethnic areas of information technology, the Chinese minority language network public opinion research has gradually attracted everyone's attention, text classification and sentiment analysis module is an important part of public opinion of the system. Traditional text classification methods, mainly through word repetitions statistics literally, and semantic association little consideration for the text behind. This article focuses on the LDA model based on minority languages ??(with Yi for example) the application of information network public opinion sentiment analysis aspects of the theme of the text implied modeling, data mining minorities through public opinion on a web page that contains the theme, as well as sentiment analysis of these topics, before the incident broke out, Bian take emergency measures.

Key Words:Topic model;network public opinion;the detection system

目前,支持少数民族语言文字的计算机软件的应用范围逐渐扩大,越来越多的少数民族人口开始接触、熟悉网络,使得互联网迅速成为我国少数民族地区人口表达自身意愿、共享民族文化、彼此交流信息的重要媒介。采用科学的理论方法,进行中国少数民族语言网络舆情信息的分析和研究,不仅是政府在现如今的大数据时代下实现科学、民主决策的基本需要,更是保证少数民族地区稳定、繁荣的重要条件。目前,云南境内影响力较大的少数民族官方网站比较少,信息及舆论导向能力相对比较薄弱。有些网站论坛甚至转载境外不实信息,加以报道,在一定范围内造成了极为恶劣的影响。民族语言新闻信息,特别是时政类信息的传播对国家安全存在极大的隐患。因此,做好网络舆情信息研究工作、正确领导社会舆论、加强网上舆论斗争是防止势力渗透,建设稳定、团结、和谐社会的迫切需要。

传统判断两个文本相似性的方法主要是通过统计的方法,查看这两个文本中共同出现的词语数,如TF-IDF等,但是这种方法并没有考虑到文字背后可能存在的语义关联,两个文本当中,共同出现的词语或许很少甚至没有,但这两个文本却是相似的。所以在进行文本相关性判断的时候,需要考虑到文本的语义,而主题模型则是语义挖掘的利器,LDA就是其中比较有效的一种模型。

以LDA(Latent Dirichlet Allocation)模型[1]为代表的主题模型是近年来文本挖掘领域的一个热门研究方向。该模型具有优秀的降维能力以及良好的扩展性,并且能够针对复杂系统进行建模。利用主题建模挖掘出的主题能够帮助人们进一步理解海量文本所隐藏的语义,从而完成文本分类、话题检测和关联判断等多方面的文本挖掘任务。彝文在少数民族语言当中具有典型性和代表性,该文以云南跨境民族语言―彝文为例,将LDA模型应用于彝文网络舆情信息情感分析系统当中,对于潜在的语义进行探索。

1 LDA模型研究

1.1 概率主题模型的提出

主题模型(Topic Modeling)成为近年来文本挖掘领域的热点之一,它能够发现文本与词语之间的潜在语义关系(即主题)――通过将文本看成是一组主题的混合分布,而主题又是词语的概率分布,从而将高维度的向量空间映射到低维度的空间。即“文本-词语”映射为“文本-主题”和“主题-词语”,从而有效地提高了文本信息处理的性能。

现在,计算机还不具备人脑的结构,对于自然语言的理解仍然存在一定的困难,所以需将无结构的自然语言文本转化为可以供计算机进行识别的特征文本。向量空间模型(VSM)是20世纪60年代提出的一种文本表示模型,它将文档表示成特征元素的集合,来表示自然语言,但其没有体现词语在文档中出现的频率,之后,基于词频统计的TF方法被提出。20世纪80年代,研究人员在TF的基础上进行改进,又提出TF-IDF(词频-逆文档频率)技术,该技术思想简单,容易理解,被广泛应用。但是,该技术无法捕捉文本内部与文本间的统计特征,并且不能解决同义词/多义词的问题,因此精确度不是很高。

于1990年,Deerwester等人提出潜在语义分析LSA(Latent Semantic Analysis)模型,用于挖掘文本与词语之间所隐含的潜在语义关联[2]。其理论基础是数学中的奇异值矩阵分解(SVD)技术。其优点在于,它能够对词-文档之间的关联关系进行降维,进而减少了存储规模,但是在计算时,迭代次数非常多,复杂度呈三次方急剧增长。

鉴于LSA存在的一些缺点,Hofmann等人于1999年提出了一种基于概率的潜在语义分析PLSA(Probabilistic Latent Semantic Analysis)模型。该模型通过引入概率统计的思想,避免了SVD的大量复杂度。但是随着文本和词的个数的增加,模型变得越来越庞大;EM算法需要进行反复迭代,因此计算量也很大。于是,Blei等人于2003年提出一种新的主题模型LDA(Latent Dirichlet Allocation),它是一个层次贝叶斯模型,将模型的参数也看作是随机变量,从而引入控制参数的参数,实现彻底的“概率化”。

1.2 相关工作

中国少数民族语言文字分类很多,彝文就是其中的一种,由于计算机目前还无法理解自然语言,所以需将无结构的自然语言文本转化为可供计算机识别的特征文本。而语料库是存储于计算机中,并可利用计算机进行智能分析的语言素材的总体,是语言文字信息处理工作的基础。因此,建设大型的彝文基础语料库,不仅为彝语语言文字规范和标准的制定提供可靠的数据,也为之后进行的文本分类和情感分析工作奠定了基础。在参考了汉语的既有分类语料库的基础上,结合已有的彝文语料,该文把彝文文本分类语料库分为七类,分别为色情、军事、化学医疗、信息科技、政治、宗教民俗。图1是其中的一部分。

1.3 模型建立

1.3.1 LDA模型

潜在狄里克雷分布(简称LDA)是文本生成模型中的一种,其基本思想是文本是由潜变量确定的主题随机混合而成的,而这些主题又可以表示为词语的分布。

给定一个文档集合,LDA将每个文档表示为一个主题集合,每个主题是一个多项式分布,用来捕获词之间的相关信息。如图2所示,包含词、主题和文档三层结构。其中θ是一个主题向量,向量的每一列表示每个主题在文档出现的概率,该向量为非负归一化向量;N表示要生成的文档的词语的个数,W表示生成的词语W。z表示所选择的主题,最外层的α和β是语料层次的参数,方框表示反复进行的过程,箭头表示采样工作,从图中可以看出,只需要采样一次就能够产生整个语料。

1.3.2 LDA生成文档

LDA方法使生成的文档可以包含多个主题,该模型需要首先选定一个主题向量θ,从而确定每个主题被选择的概率p(θ)。然后在生成每个词语的时候,从主题分布向量θ中选择一个主题z,表示给定θ时,主题z的概率分布,具体为θ的值。按主题z的单词概率分布再生成一个词语W,p(W|z)表示给定z时W的分布,可以看成一个k×v的矩阵,k为主题的个数,v为词语的个数,每行表示这个主题对应的单词的概率分布,即主题z所包含的各个词的概率,通过这个概率分布,按一定的概率生成每个词语。其图模型如图3所示。

通过对LDA生成模型的讨论,可以知道LDA模型主要是通过给定的输入彝文语料库中学习训练两个控制参数和β,确定了这两个控制参数就确定了模型,便可以用来生成文本。其中和β分别对应以下信息:

α:主题概率p(θ)需要一个向量参数,即Dirichlet分布参数,从而生成一个主题θ向量;

β:各个主题对应的词语概率分布矩阵p(W|z)。

从上图可知LDA的联合概率为:

(1)

1.3.3 参数估计

对文本的建模主要就是计算α和β两个参数。可以采用极大似然估计,找出一对α和β,使得似然函数值达到最大。可通过EM算法学习出α和β,在求解过程中,遇到后验概率p(θ,z|w)无法直接求解,需要找到一个似然函数下界来近似求解,每次E-step输入α和β,再计算似然函数,经过M-step使这个似然函数达到最大化,算出和β,不断迭代,直到其收敛。

2 主题模型在彝文文本情感分析中的应用

文本情感分析,又称意见挖掘(Opinion Mining),指对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程;属于计算语言学的范畴,涉及到机器学习[3]、数据挖掘、自然语言处理等多个研究领域。与客观性文本不同的是,主观色彩浓厚的信息往往蕴含着大众舆论对问题的看法,对政府部门具有十分重要的参考价值,例如:政府各部门需要全面掌握大众对其所管辖区域的新闻事件的思想动态,如果采用人工方式来收集和分析这些海量信息,显然成本高、效率低并且困难,通过利用计算机将非结构化的文本进行分类[4]和提取的文本情感分析技术(Text Sentiment Analysis)应运而生。通过挖掘网页所蕴含的主题,以及分析这些主题的情感偏好,来提高文本情感分析的性能。

从技术实现的角度,LDA及其扩展模型可以直接应用于用户评论文本挖掘中。基于此,有些研究人员提出从“词语-句子-段落-文档”角度进行多粒度划分的方法。从系统设计的角度,基于主题模型的文本情感分析系统主要包括以下部分:信息采集与预处理(如网页爬取、去噪处理、彝文分词、停用词处理等)、主题抽取、情感词抽取(彝文电子词典已经建立)、主题的情感分类或评分、主题情感摘要生成(方便用户直接了解主题)、系统评测等。

3 结语

尽管现阶段我国少数民族语言网络舆情研究系统并不多,但是从推进少数民族地区的民主管理和社会稳定的长远需求来看,进行少数民族语言网络舆情领域的理论研究,开发能够进行智能分析的网络舆情监测系统,对维护国家民族地区社会的繁荣和稳定具有非常重要的现实意义。该文将LDA主题模型应用到少数民族语言网络舆情信息情感分析当中,来对网络舆情信息进行深入分析,对政府部门做出贡献。

参考文献

[1] 翁伟,王厚峰.基于LDA的关键词抽取方法[C]//第五届全国青年计算语言学研讨会论文集,2010.

[2] 周博,岑荣伟,刘奕群,等.一种基于文档相似度的检索结果重排序方法[J].中文信息学报,2010,24(3):1849-1859.

[3] C.C.Chang,C.J.Lin.LIBSVM: a library for support vector machines[J].ACM Transactions on Intelligent Systems and Technology (TIST),2011,2(3):27.

[4] 奉国和.文本分类性能评价研究[J].情报杂志,2011,30(8):66-70.

[5] Wintersong.台湾大学NTUSD-简体中文情感极性词典[DB/OL].[2011-10-25].http:///data/11837.

上一篇:从社会中心路径的视角浅析如何促进地方政府管... 下一篇:高校体育教学中“三自 五导”教学模式的应用