基于数据挖掘的网络舆情论文

时间:2022-10-29 07:07:54

基于数据挖掘的网络舆情论文

1网络舆情分析模型

网络舆情分析模型架构如图1所示,其中网络数据抽取与预处理是基础,舆情分析引擎是关键,该引擎主要利用数据挖掘技术来实现,包括分类、聚类、关联规则和异常检测,最终能够实现热点识别、话题追踪和舆情预警的功能。

1.1网络数据采集与预处理网络上存在海量的各种异构资源,例如文本、图片、音频、视频等。舆情分析的第一步就是将各种数据采集来,可以利用开源的网络数据抓取软件进行,例如WebDataExtractor等。采集来的数据不规范,需要做进一步处理,例如聚集、抽样、特征创建、特征子集选择和变量变换等。预处理后的数据将会写入数据中心,以便舆情分析引擎调用。

1.2数据挖掘数据挖掘可以从收集的大量数据集中发现有价值的信息,包括:分类、聚类、关联规则和异常检测等。舆情分析引擎的设计主要依托数据挖掘技术。分类又称为监督学习,是指从给定的训练数据中学习到一个分类模型。分类法包括:基于规则的分类法、决策树分类法、神经网络分类法、支持向量机、神经网络和朴素贝叶斯分类法等。分类方法的主要目标是建立具有很好泛化能力的模型。网络上的数据是以主题形式进行组织,常见主题有:政治、财经、体育、娱乐、军事等。根据已有数据,利用分类技术,能学习生产一个判别模型,该模型能实现对新的网页自动分类,这在新闻推送方面具有重要应用价值。聚类分析[9](ClusterAnalysis)是一个无监督的学习过程,在发现数据分析和模式中起着十分重要的作用,其形式化描述为:给定数据集合D={x1,x2,…,xn},其中xi为数据对象,根据数据对象之间的相似度将数据集合划分成k个不同的子集:C1,C2,…,Ck(k≤n),则对于坌i,j∈[1,k],且为正整数,使得Ci≠覫,Ui=1kCi=D,且Ci∩Cj=覫成立。物以类聚,人以群分是对聚类技术的直观解释。各种社交网络中,存在着微博“大V”,也称为“意见领袖”。这些“大V”用户拥有很多粉丝,他们的言行会对网络舆论空间产生重大的影响,甚至左右舆论方向。

科学合理地分析这些“意见领袖”的内容,就抓住了社会网络分析的主要方面。而聚类技术能够快速识别出设计社会网络中的意见领袖。关联规则是描述数据库中属性之间存在的潜在关系的规则,形式为XY,其中,X称为规则前件(an-tecedent),Y称为规则后件(consequent)。项目集间的关联规则的含义为:如果X出现在一条交易中,那么Y在这条交易中同时出现的可能性比较高。每条规则都对应两个指标最小支持度(minsupport)和最小置信度(minconfidence),用来衡量它的兴趣度。异常检测的目标是发现与大部分数据不同的对象,也称为离群点检测(outlierdetection)、偏差检测(deviationdetection)。异常检测的方法主要有基于模型的技术、基于近邻度的技术和基于密度的技术。论坛中,各网民都是针对特定主题进行发帖、回复或转发的。如何发现一个新的帖子,与已有帖子内容的相似度极小,则该帖子为异常点。需要对该帖子格外关注,做进一步的语义分析。

2网络舆情展现

网络上,用户经常会针对某一事件展开讨论,有大量用户参与讨论的事件和话题称为热点话题。根据数据中心的内容,例如网页的关键词,回帖的数目,转发的数量等,借用数据挖掘技术可以计算出各话题的热度值。网络上有海量信息,用户没有精力一一关注。本网络舆情分析模型可以挑选出热度值较高的话题反馈给用户。网络空间是真实社会空间的缩影,舆情分析模型中也引入社会网络分析(SocialNetworkAnalysis)的方法。话题追踪就是根据特定主题,利用相关技术,把该主题相关后续信息都搜集起来的方法。为实现话题追踪,应先建立话题模型,常用的话题模型是向量空间模型(VectorSpaceModel)。在计算各话题间的相似度,常用的相似度有欧几里得距离、闵可夫斯基距离等。

3结语

国家需要了解社情民意,这样才能够制定出正确的方针、政策。网络媒体是广大网民表达自身观点的重要渠道,做好网络舆情分析具有重要意义。本文提出了一种基于数据挖掘的网络舆情分析模型,运用分类、聚类、关联规则和异常检测等方法,来实现热点识别、话题追踪和情感倾向性分析等功能。网络上存在海量的、异构的数据资源,如何高效地整合这些资源、设计针对大数据的计算、分析和挖掘算法,是设计网络舆情分析产品的关键,也是进一步努力的方向。

作者:赵纪涛王婷单位:许昌学院信息工程学院许昌学院图书馆

上一篇:基于易班平台的高校网络舆情论文 下一篇:基于复杂网络的网络舆情论文