基于数据挖掘的网络舆情论文

时间：2022-10-29 07:07:54

基于数据挖掘的网络舆情论文

1网络舆情分析模型

网络舆情分析模型架构如图1所示，其中网络数据抽取与预处理是基础，舆情分析引擎是关键，该引擎主要利用数据挖掘技术来实现，包括分类、聚类、关联规则和异常检测，最终能够实现热点识别、话题追踪和舆情预警的功能。

1.1网络数据采集与预处理网络上存在海量的各种异构资源，例如文本、图片、音频、视频等。舆情分析的第一步就是将各种数据采集来，可以利用开源的网络数据抓取软件进行，例如WebDataExtractor等。采集来的数据不规范，需要做进一步处理，例如聚集、抽样、特征创建、特征子集选择和变量变换等。预处理后的数据将会写入数据中心，以便舆情分析引擎调用。

1.2数据挖掘数据挖掘可以从收集的大量数据集中发现有价值的信息，包括：分类、聚类、关联规则和异常检测等。舆情分析引擎的设计主要依托数据挖掘技术。分类又称为监督学习，是指从给定的训练数据中学习到一个分类模型。分类法包括：基于规则的分类法、决策树分类法、神经网络分类法、支持向量机、神经网络和朴素贝叶斯分类法等。分类方法的主要目标是建立具有很好泛化能力的模型。网络上的数据是以主题形式进行组织，常见主题有：政治、财经、体育、娱乐、军事等。根据已有数据，利用分类技术，能学习生产一个判别模型，该模型能实现对新的网页自动分类，这在新闻推送方面具有重要应用价值。聚类分析[9]（ClusterAnalysis）是一个无监督的学习过程，在发现数据分析和模式中起着十分重要的作用，其形式化描述为：给定数据集合D=｛x1，x2，…，xn｝，其中xi为数据对象，根据数据对象之间的相似度将数据集合划分成k个不同的子集：C1，C2，…，Ck（k≤n），则对于坌i，j∈[1，k]，且为正整数，使得Ci≠覫，Ui=1kCi=D，且Ci∩Cj=覫成立。物以类聚，人以群分是对聚类技术的直观解释。各种社交网络中，存在着微博“大V”，也称为“意见领袖”。这些“大V”用户拥有很多粉丝，他们的言行会对网络舆论空间产生重大的影响，甚至左右舆论方向。

科学合理地分析这些“意见领袖”的内容，就抓住了社会网络分析的主要方面。而聚类技术能够快速识别出设计社会网络中的意见领袖。关联规则是描述数据库中属性之间存在的潜在关系的规则，形式为XY，其中，X称为规则前件（an-tecedent），Y称为规则后件（consequent）。项目集间的关联规则的含义为：如果X出现在一条交易中，那么Y在这条交易中同时出现的可能性比较高。每条规则都对应两个指标最小支持度（minsupport）和最小置信度（minconfidence），用来衡量它的兴趣度。异常检测的目标是发现与大部分数据不同的对象，也称为离群点检测（outlierdetection）、偏差检测（deviationdetection）。异常检测的方法主要有基于模型的技术、基于近邻度的技术和基于密度的技术。论坛中，各网民都是针对特定主题进行发帖、回复或转发的。如何发现一个新的帖子，与已有帖子内容的相似度极小，则该帖子为异常点。需要对该帖子格外关注，做进一步的语义分析。

2网络舆情展现

网络上，用户经常会针对某一事件展开讨论，有大量用户参与讨论的事件和话题称为热点话题。根据数据中心的内容，例如网页的关键词，回帖的数目，转发的数量等，借用数据挖掘技术可以计算出各话题的热度值。网络上有海量信息，用户没有精力一一关注。本网络舆情分析模型可以挑选出热度值较高的话题反馈给用户。网络空间是真实社会空间的缩影，舆情分析模型中也引入社会网络分析（SocialNetworkAnalysis）的方法。话题追踪就是根据特定主题，利用相关技术，把该主题相关后续信息都搜集起来的方法。为实现话题追踪，应先建立话题模型，常用的话题模型是向量空间模型（VectorSpaceModel）。在计算各话题间的相似度，常用的相似度有欧几里得距离、闵可夫斯基距离等。

3结语

国家需要了解社情民意，这样才能够制定出正确的方针、政策。网络媒体是广大网民表达自身观点的重要渠道，做好网络舆情分析具有重要意义。本文提出了一种基于数据挖掘的网络舆情分析模型，运用分类、聚类、关联规则和异常检测等方法，来实现热点识别、话题追踪和情感倾向性分析等功能。网络上存在海量的、异构的数据资源，如何高效地整合这些资源、设计针对大数据的计算、分析和挖掘算法，是设计网络舆情分析产品的关键，也是进一步努力的方向。

作者：赵纪涛王婷单位：许昌学院信息工程学院许昌学院图书馆

基于数据挖掘的网络舆情论文

文档上传者

热门推荐更多>

精品范文更多>

基于数据挖掘的网络舆情论文

文档上传者

热门推荐 更多>

精品范文更多>

热门推荐更多>