基于微博的舆情监测与分析的研究

时间:2022-06-08 08:39:17

基于微博的舆情监测与分析的研究

摘要:微博凭借其操作简单、互动性强、传播迅捷的特点,发展飞速。微博不仅已经渗透到社会各个方面,而且日益成为新闻舆论的重要源头。网络舆情的形成和传播呈现的是病毒爆发式的增长方式,能对社会产生巨大的影响。但基于微博的舆情监测和分析还是比较贫乏的。在舆情监测和分析研究的基础上设计与实现了基于微博的Scool舆情监测分析系统。针对微博覆盖面广、用户基数大、数据量巨大、更新速度快的特点,在此系统中信息的存储采取的是NoSQL与关系数据库结合的方式。

关键词:微博; 舆情监测; 舆情分析; Scool; NoSQL

中图分类号:TP311 文献标识码:A文章编号:2095-2163(2013)02-0050-04

0引言

目前,随着网络全球化的进程加快以及移动技术的推广,微博已经成为了网络舆情的主要源头和有效传播路径。由于微博具有的进入门槛低、操作便捷、互动性强等特点,近两年在全国得到了迅速的普及,获得广泛的应用。但是不可忽视的隐患也随之呈现。微博已经成为了各种谣言和违法信息滋生、蔓延的主要平台,对社会也造成了无法预知的不良影响。因此,开展微博的舆情监控和分析研究已是大势所趋,势在必行。

1研究现状

目前,已有针对网络舆情分析和挖掘的软件产品,较典型的有 Autonomy 网络舆情聚成系统、Goonie 互联网舆情监测系统、TRS 互联网舆情信息监控系统、方正智思舆情预警辅助决策支持系统、中科点击(北京)科技有限公司研发的军犬网络舆情监控系统等。这些系统均能对网络舆情发挥一定的监测、分析和预警的作用,为社会和谐稳定提供了有效的技术和决策支持。虽然如此,但针对微博舆情监测和分析的大部分系统却没有充分考虑到微博用户基数大、覆盖面广、数据量巨大、更新速度快的特点,而在这种情况下,采用普通的关系数据库显然无法满足要求,因此,引入NoSQL技术存储数据则是一个颇有前景的发展方向。

2微博舆情传播特点

基于上述对微博使用方式的分析,决定了微博舆情的传播将具有如下特点:

(1)信息生成和传播简便。只要简单操作,就可以第一时间关注微博新闻中的相关人物,或转发传统新闻和论坛中的内容,而且由于移动终端对微博的支持,微博就超越了时间与地域的限制,完全实现了微博的简便简易性。

(2)传播信息快捷。仅以“7 .23”动车事件为例,2011 年7 月23 日晚20 点38 分事故发生,4分钟后网友发出了第一条微博,比传统媒体提早了两个多小时。

(3)病毒爆发式的信息传播模式。消息一经发出,用户的所有关注者都能收到,而这一群体再亦如此继续向外传播,则微博信息就呈现了病毒爆发式扩散传播的态势。

3基于noSQL的数据库设计

NoSQL最初出现于2009年6月11日由Oskarsson在旧金山发起并组织的一个非正式会议上。NoSQL是当下数据库家族的外来者,虽然有些通用的特征,但却没有一个特征得到了明确定义。

根据舆情监控系统的数据实际情况,在其系统的数据库设计中引入NoSQL,当写入数据时,可在MySQL、NoSQL中分别写入一条数据的不同字段,而读取数据时,则从MySQL、NoSQL组合字段完成读取。这一读/写过程如图1所示。

在如图1所示的组合结构中,MySQL中存储着需要查询字段中的数字、时间等类型的小字段,其后按照查询建立相应的索引,而NoSQL中则存储着包括大文本字段在内的其他并不需要的字段。查询过程可描述为,首先将数据主键从MySQL中查询出来,再从NoSQL中直接取出对应的数据。

文中设计的架构模式使得MySQL和NoSQL能够各自发挥所长,即由MySQL实现关系存储,而NoSQL则实现数据存储。这种设计的优点如下:节省MySQL的IO开销、提高MySQl Query Cache缓存命中率、改进了MySQL主从同步效率、提升了MySQL数据备份和恢复的速度、具有更好的扩展性。

还需一提的是,这种以MySQL为主、NoSQL为辅的架构设计与MySQL的单体架构相比,系统的多样性能和可扩展性均得到了有效提高。

4基于微博的Scool舆情监测分析系统设计与实现

基于微博的Scool舆情监测分析系统旨在取代传统的人工收集和监控工作,实现深入、高效挖掘,并实时得到微博网络中相对敏感的舆论信息,以警示管理人员及时采取相应措施。

基于微博的Scool舆情监测分析系统的实现过程是,每日需定时、周期地对新浪微博、腾讯微博、网易微博、搜狐微博进行网页抓取后,并对其内容实行解析后存入数据库,而后通过分词索引以建立搜索引擎,实现数据索引,再通过用户设定的关键词库对采集的数据进行关键词集过滤,由此获得敏感舆情信息文本返回给用户界面。系统还应对收集的信息进行自然语言处理,从而识别得到热点话题和热门事件。

4.1软件体系结构

系统分为后台数据分析模块和前台数据展示模块。后台模块负责实现数据抓取与分析,是系统的核心。前台模块负责完成微博、Web数据展示和基本维护操作。

4.1.1前台结构

前台展示程序分为四大块,分别是:舆情信息展示、舆情搜索、用户监控网址和关键词设置、用户登录与管理。其中,舆情整体全面展示则按五类来进行和表现,分别是:最新舆情展示、按网站类型展示、按监控网址展示、按话题事件展示和舆情统计。前台模块的结构框架如图2所示。

前台展示程序主要基于JAVA开源SSH框架来进行构建而得以实现,其设计结构如图3所示。

在本系统的架构设计中,将在表示层上构设的Struts框架,在业务逻辑层构设的Spring框架以及在数据访问层构设

(1)表现层使用JSP来实现构建,为客户端提供对应用程序的访问;

(2)控制层接受客户端的请求,并根据不同的请求调用相应的事务逻辑,再将处理结果返回到相关的页面;

(3)业务逻辑层用来提供相关的业务逻辑;

(4)数据访问层提供对数据库的各种操作。

系统设计中的三大框架有机配合、协调统一,其各自实现功能为:

在表现层中,由Struts框架负责处理JSP页面的请求和转发工作;在系统中用Hibernate来封装数据库的连接类,通过该框架所提供的注解方式实现了实体类与数据库表结构间的映射关系,并由该框架完成在数据访问层与数据库间的交互工作,再通过Hibernate框架的二级缓存EHCache提供对用户关键词和行业恶劣情感词的高效缓存。此外,系统使用Spring框架作为系统运行轻量级的容器,负责在业务逻辑层处理业务逻辑工作。通过在配置文件中设置对象的创建方式及对象之间的关系,即可由Spring框架的IoC的容器来创建对象,同时也维护对象之间的依赖关系。通过这三大框架的整合,有效降低了系统中各模块之间的相关性,由此形成一个结构科学、功能强大和层次清晰的框架体系。

4.1.2后台结构

由图6可知道,后台结构可分为数据缓冲池队列,线程池线程和数据库三部分。其中,缓存队列负责数据流的来源,关键处理流程则拆分至各个线程中独立实现;线程控制数据缓存池中数据流的走向,各线程本身的并发运行均交由线程池实现统一管理。数据库则采用上述的NoSQL与关系数据库相结合的对应技术来主导实现。

4.2系统实现

用户注册、登录系统后,可以点击页面上的相应标签来查看有关的舆情记录。同时,系统也会将每天最新的舆情记录完整、清晰地呈现。用户还可以点击更多的舆情链接来查看当日之前任何一天的舆情记录。

可以点击系统主页上的舆情搜索标签来进行包含指定关键词的舆情记录,搜索页面如图7所示。在输入框中输入关键词,就可以看到相关的信息。

5.结束语

在Scool舆情监测和分析系统设计与实现过程中,有关信息存储方面,本文主要提出了NoSQL和MySQL相结合的方法。实验证明,采用这种信息存储的方法可节省MySQL的IO开销、提高MySQL数据备份和恢复的速度、且比以前更容易实现扩展。对其后类似系统的设计提供了有益借鉴,并显示了一定参考价值。由于时间及技术的限制,测试和抓取的数据还不够连续和充分,下一步仍可继续完善和推进这一方面的工作。

参考文献:

[1]贾焰,刘江宁. 微博的舆情特点及其谣言治理[J]. 图书情报知识,2012(6):7-9.

[2]张玉峰,何超. 基于Web挖掘的网络智能分析研究[J]. ITA,2011(4):64-68.

[3]汝艳红. 微博信息传播的特点及发展趋势[J]. 青年记者,2012(8):27-30.

[4]钟瑛,刘利芳. 微博传播的舆论影响力[J]. 新闻与传播研究,2013(2):8-12.

[5]FOWLER M. NoSQL Distilled[M]. 2009:1-20

[6]齐海凤. 网络舆情热点发现与事件跟踪技术研究[D]. 哈尔滨:哈尔滨工程大学,2006:11-30.

[7]林大云. 基于Hadoop的微博信息挖掘[J]. 计算机光盘软件与应用,2012(1):7-9.

[8]曾润喜. 网络舆情管控工作机制研究[J]. 图书情报工作,2009(18):79-82.

上一篇:建设工程施工图审查信息系统的分析与设计 下一篇:自相似网络流量模型研究