面向网络舆情的检索系统设计研究

时间:2022-10-05 10:45:34

面向网络舆情的检索系统设计研究

摘要:网络舆情具有自由、传播和隐蔽等特点,这使得传统的信息检索技术很难直接应用到网络舆情监测系统中。通过深入研究网络舆情的相关技术,提出了网络舆情监测系统框架。围绕着论坛爬虫这一核心技术,分析了论坛网站的结构特点,并构建了论坛网站的层次模型,实现了对不同论坛网站的抓取。这种基于层次模型的爬虫技术兼顾了舆情信息采集的广泛性与特殊性,实验结果表明,该方法能够提高论坛爬虫的效率。

关键词关键词:舆情监测;信息获取;网络爬虫;文本解析;热点发现

中图分类号:TP301 文献标识码:A 文章编号文章编号:16727800(2013)007004002

0 引言

随着Web2.0技术的不断发展和Web终端的迅速普及,越来越多的民众参与到网上交流活动中来,互联网已逐渐成为舆情产生和传播的主要场所。

舆情是指在一定的社会空间内,围绕中介性社会事件的发生、发展和变化,由较多群众所表达的信念、态度、意见和情绪等等行为的总和。网络舆情是舆情在互联网上的存在形式,是网民对自己关心或与自身利益紧密相关的各种公共事务所持有的多种情绪、态度和意见交错的总和。其中,最为重要的一种形式是网络言论,它通过网站、新闻组、在线聊天、博客等途径进行传播。网络的开放性和虚拟性决定了网络舆情具有以下特点:

(1)表达自由。通过论坛、新闻点评和博客网站,网民可以以匿名的方式随时随地发表意见,民意表达畅通无阻。

(2)传播迅速。网络舆论的形成往往形成于某一突发事件,一个事件的存在加上一种情绪化的意见,就可以迅速地成为一个舆论热点。

(3)身份隐蔽。网民数量巨大,发言者身份隐蔽,缺少规则限制和有效监督,从而导致网络舆情的监控工作难以有效开展。

网络舆情监测系统不仅可以减少各级政府部门在网络舆情监测方面的人力和物力方面的投入,还能提高网络舆情监测效果。

1 舆情检索系统核心技术

网络舆情监测系统是一个复杂而庞大的系统,涉及很多技术。从总体上看,其核心技术可以分为网络信息采集技术、网络文本信息抽取技术。

1.1 网络信息采集技术

目前已有的舆情监测系统主要利用元搜索技术和网络爬虫的方法采集舆情信息。

元搜索通过将多个单一搜索引擎集成在一起,将用户的检索提问同时提交给多个独立的搜索引擎,同时检索多个索引库,将多个搜索引擎的检索结果进行二次加工,如对检索结果去重、排序、过滤等,其搜索到的结果将比搜索单一搜索引擎的检索结果数量更多,信息更全。同时,采用元搜索技术不需收录整个互联网中的信息就可以获得查询结果,其复杂度较低。

爬虫(Crawler) 是一种按照若干规则,自动抓取万维网信息的程序或者脚本。根据预先设定的一个或若干初始种子URL开始,以此获得初始网页上的URL列表,在爬行过程中不断地从URL队列中获得新的URL,进而访问并下载该页面。页面下载完成之后网页信息抽取程序将页面信息保存,同时将当前页面上抽取到的新的URL,保存到URL抓取队列,直到满足系统停止条件。

1.2 网页信息抽取及预处理技术

“信息抽取的作用是从自然语言中抽取出预定好的实体、关系、事件的集合,并用结构化的表示来记录这些信息。”[1]与单纯的文本不一样的是,一个完整的网页通常包含多个内容部分:网页顶部的导航栏、网页正文标题、网页正文信息、相关的链接、广告、版权信息等等。在这些组成部分中,标题与正文通常是用户最关心的部分,多数情况下能够满足用户需要的信息,称为主体信息。其它部分的内容基本与网页内容无关,这些内容是用户可以忽略的次要信息。目前,网页文本信息抽取主要有基于模板的抽取方法和基于网页结构信息的方法。

2 舆情检索系统架构设计

2.1 网络舆情监测框架总体模型

本文所描述的网络舆情监测系统框架总体上分为舆情信息采集层、舆情数据处理层、舆情信息查询与展示3层,它们分别从舆情信息获取、舆情数据处理和舆情数据展示3个层面来描述舆情系统的工作流程,如图1所示。

2.2 舆情系统具体流程

由于网络舆情信息分布分散,论坛、博客、微博以及新闻等网站都是舆情信息的主要爆发点,而且各种类型的网站结构各异,传统以单一爬虫采集的方法表现出采集垃圾信息过多、可配置性较差等缺点,因此针对不同类型的站点设计不同的爬虫方法是一种相对明智的做法。

舆情信息采集层根据用户的监测目标以尽可能小的代价从互联网上尽可能全地下载所有舆情信息;舆情数据处理层将所采集到的舆情信息进行预处理、过滤和分析;舆情信息查询与展示层根据用户提供的启发式信息给出查询结果,根据用户提供的启发式信息自动实时地监测本地信息库,并在发现重要舆情信息时为用户示警。

3 舆情检索系统模块实现

3.1 基于层次模型的论坛爬虫

由于论坛网站页面结构复杂,传统的采用广度优先的爬行策略和基于网页结构信息的页面解析方法在论坛网站的抓取方面效果较差,使得论坛抓取成为网络舆情信息抓取问题的重点和难点。本文将详细介绍一种基于层次模型的论坛爬虫(Level Model of Forum Crawler,简称LMFC)。

为了保存爬虫爬行过程中的URL关系,已有部分研究人员提出了一些解决方法。文献[2]提出了页面翻转侦测算法,通过机器学习的方法发现两个页面间的连通性,从而确定两个页面是否属于同一个话题;另有一种更为简便的方法是,总结所有指向下一页的链接的锚文本的规律,如“下一页”、“Next Page”等,通过启发式信息指导爬虫处理。这些方法在通用性方面具有很大优势,但在精确性方面却不能满足舆情监测的需要。

本文采用WebHarvest提取论坛页面信息,对于WebHarvest来说要精确提取一个“下一页”链接并非难事。因此,在抽取一个论坛页面的舆情信息的同时,也会根据提取模板中定义的规则提取该页面的下一页链接。如果提取到的链接不为空,则继续下载该页面的下一页链接所对应的页面,直到同一个话题下的所有页面都下载完毕。

3.2 舆情热点发现模块

(1)文本过滤。

本文采用Mahout提供的SVM算法,实现对监测过程中获取到的不相关文本进行过滤处理。由于不同的监测项目,判断监测标准不一致,因此无法形成一个用于过滤所有监测项目中舆情信息的统一模型。因此,系统在进行文本过滤时从已经抓取到的舆情信息中选择训练的正例和反例,根据小样本训练出分类模型,再使用该项目中其它舆情信息验证模型的有效性,保证训练模型的质量,并且只过滤本监测项目中的舆情信息,保证舆情分类的效果。

(2)舆情热点的发现。

舆情热点发现模块在大量文本中将内容相似的文本归为一个类。通过对典型的基于划分文本聚类算法和凝聚层次聚类算法研究之后发现其各有优缺点。KMeans 这样的基于划分的聚类算法,利用整个文本集的全局信息,具有速度快、易于实现的特点,适用于文本聚类分析,但它在聚类初始中随机选择热点,需要给定聚类个数,聚类结果会产生较大的波动。Canopy这种凝聚层次聚类算法在聚类过程中,更多利用的是文本集的局部特征,能很方便地将文本分类。基于这些考虑,本文采用Mahout提供的Canopy和KMeans算法对同一项目下的文本聚类,首先采用Canopy获得初始聚类结果,再用KMeans优化。

参考文献:

[1] KLAUS ZEEHNER.A literature survey on information extraction and text summarization[R].Carnegie Mellon University,1997.

[2] WANG YIDA, YANG JIANG MING, LAI WEI, et al. Exploring traversal strategy for web forum crawling[C].Proceedings of the 31St annual International ACM SIGIR Conference on Research and Development in Information Retrieval,2008.

[3] 刘毅.略论网络與情的概念、特点、表达与传播[J].理论界,2007(1).

[4] 丁杰,徐俊刚.IPSMS:一个网络舆情监控系统的设计与实现[J].计算机应用与软件,2010(4).

上一篇:数字媒体在电子商务网站中的应用现状分析 下一篇:办公自动化系统中动态工作流研究