网络舆情监测系统范文

时间:2023-02-28 13:05:21

网络舆情监测系统

网络舆情监测系统范文第1篇

舆情监测工作由来已久,最早的网络舆情监测手段也是基于传统的手工模式。通过雇佣大量工作人员对指定的监测页面进行监测,使用人工方式,对某些重点监测词汇进行频率统计来寻找舆情动向。然而随着互联网的蓬勃发展,传统的方式已经落伍,要对网络舆情进行监测,就必然要依托于一个功能强大的互联网舆情监测系统进行。伴随着网络的发展,国内外已有一系列的网络舆情监测系统正式投入使用,这些系统通常是依托于政府部门、学术机构以及企业媒体建设的,分别基于不同的需求(行政决策的、学术研究的、商业开发的),从不同的角度对网络舆情进行监测。最早的相关研究始于TDT(TopicDetectionandTracking)项目[2],它是美国国防高级研究计划局主导的,旨在从新闻网页中找到未知话题并对话题进行追踪。该项目历经多年发展演变,其核心研究内容分为报道切分、话题追踪、话题监测、首次话题报告以及关联监测这5个方面的内容[3]。在我国,由于中西文在文本挖掘、分词方面的巨大差异,以及社会经济等方面的差异,基于汉语的网络舆情监测研究起步较晚[4]。目前,学院型的舆情研究机构主要有北京大学中国国情研究中心、中国人民大学舆论研究所、上海交通大学舆情研究实验室等[5]。

2网络舆情监测系统框架

从过程上看,网络舆情监测的本质是从网络上获取数据、分析数据以及按用户需求呈现分析结果的过程,因此在系统实现时,从数据流向的角度,可以把一个网络舆情监测系统划分为数据获取模块、数据预处理模块、数据分析模块以及结果呈现模块,整个系统的结构如图1所示。

2.1数据获取模块

数据获取模块的主要功能是全天候的、自动的从整个网络上,或者某些特定网络上获取进行舆情分析的原始数据。在自动获取数据的过程中,有两方面的要求。一方面,是获取的相关舆情数据相对于整个数据的覆盖率的要求,即要尽可能地获取尽量全面的原始数据;另一方面,则是对数据准确率的要求,即所需数据要尽可能贴近用户关心的舆情热点。只有在覆盖率和准确率全部达标的情况下,才能更好地对网络舆情进行分析预测。目前,常见的数据获取方式有两种:(1)网络爬虫方式。互联网的一项基本协议是HTML协议,基于该协议,网络中大量资源以统一资源定位符(URL)相互联系,构成一个有机整体。网络爬虫从一个预先定义好的URL列表开始,依次访问该列表上的所有页面进行数据抓取,并分析当前访问页面中的其他URL,选择符合要求的URL加入待访问队列,试图以深度或者广度的方式对限定范围的网络进行遍历式的访问,以获取该网络的所有信息。(2)元搜索采集技术。搜索引擎是大多数网民访问网络的入口,目前有众多的搜索引擎服务提供商,其检索过程有不同的侧重方向,检索结果也各不相同。可以在若干不同的搜索引擎上部署元搜索引擎,通过对下层引擎的调用返回多个搜索结果,并基于一定的算法对不同结果进行选择。使用该方法能够有效地提高数据获取的覆盖率和准确率,且系统构建较为简单。

2.2数据预处理模块

Web页面的数据有其自身特点,它是一种半结构化的数据,整个数据包括内容和描述两个部分,且两者混杂在一起。直接通过数据获取模块抓取的页面内容复杂,存在大量噪音,文本内容非结构化,无法直接进行下一步的分析工作,对这些原始页面必须进行一次数据预处理。预处理的过程大体上分为两步:(1)进行网页内容提取。将用户关心的内容(例如新闻的内容、对主题的讨论等)从噪音(如页面上的广告、导航以及其他超链接)中找出。将页面转化为一个HTML标签树,根据已有知识建立提取规则,最后依据规则对页面内容进行提取。如何建立一个合适的规则是提取工作的核心,可以针对某类特定的网站建立专属规则,也可以针对一般页面的结构特点建立一些通用规则。(2)进行中文文本分词。自然语言中,词是最小的独立活动的语言成分。要对页面提取获得的非结构化连续文本进行处理,首要的工作就是对其进行分词。分词是将输入的一段文本分解为符合逻辑的一组单词的过程,例如输入“羽毛球拍”时,依照某种分词算法就可以初步将其分解为羽毛、羽毛球、球拍3个单词。最简单的分词算法以词典为基础,通过对字符串匹配完成初步工作,之后辅以少量词法、语法和语义规则;另一种思路是基于统计进行分词,统计文本中相邻字同时出现的频率,频率越高就越可能构成一个词;还有一些基于规则的分词算法,通过模拟人对句子的理解过程,对当前句子的语法、句法、词法进行分析推理,能够自动补全未登录词条。

2.3数据分析模块

数据分析模块是整个网络舆情监测系统的智能核心,在本质上是一个数据挖掘的过程。它负责将前期获得的网页内容进行深度挖掘,发现新的舆情热点,并对原有的舆情趋势进行分析。一个典型的系统应具备以下几方面的功能:(1)主题聚类。聚类可以很直观地从海量数据中发现新的主题。将处理过后的网页内容归一化到某个特征空间中,在这个特征空间中以某种方式,将特征接近的页面内容划分为不同的类别,相应类别的聚类中心就可以认为是新的主题。(2)热点发现。在当今网络时代,每天产生的舆情主题众多,其中有些主题能够迅速成为当下的舆情热点,舆情监测系统需要将这些舆情热点从众多主题中筛选出来,推送给舆情分析人员。筛选的时候应该注意“热点”一词不同方面的含义,最直观的含义就是某主题在某段时间内出现的频次;再有一方面的含义就是某主题除频次以外的权重,例如该主题来源页面的影响力、该主题的发展速度等。(3)话题追踪。网络话题的生命周期从最初的事件主题开始,经过一段时间的发展演化成为舆情热点,又经历一段时间的发展变化逐渐热度降低,最后消散。还有,在这个过程中话题的变异分支过程,都是在基于网络舆情进行决策分析时可以纳入考虑的影响因素。在分析大量话题生命周期后,可以从中总结一定的规律,对当前某话题的下个阶段进行一定的预测。(4)情感识别。网络话题除了对某个发生事件的客观描述外,还有一定的情感倾向,尤其是在网民对该话题的回复中,这种情感倾向会更加明显地体现出来。从整体上看,这种情感倾向会分为赞成、反对以及中立这3种大的方向。将人们对某个舆情热点的情感倾向进行直观体现,有助于更好地进行分析决策。这种分析不光要对舆情的当前状态进行情感识别,还要对该话题的发展过程中某个阶段的情感同时进行分析,以掌握舆论对该话题情感倾向的变化过程。

2.4结果呈现模块

网络舆情分析的目的是为相关的决策提供支撑依据,其分析结果需要简单直观地提供给决策分析人员,并在初步分析的基础上对整个结果进行二次挖掘。这就需要结果呈现模块能够动态图形化地展示分析结果,并对某些舆情热点、舆情的重大拐点进行主动推送警告。根据一般化的网络舆情分析需求,必须实现的功能有:(1)针对所有主题的查询。(2)新主题的推送。(3)舆情热点、拐点的警告。(4)舆情发展态势图。

3总结展望

总的来说,一个舆情监测系统,无论具体实现细节上有多大差异,其运转流程总是按照数据获取、预处理、数据分析、结果呈现这4个步骤进行。在革命性技术手段出现之前,要对系统进行进一步的提高和完善,就需要从两个方面开展工作。一方面在数据采集部分,需要扩充监控网页的类型,如加入论坛、社区网页的搜集,或采用多种形式搜集策略相结合的方式,如聚焦爬虫、网站监控等策略,收集最广泛专业的舆情基础数据;另一方面在舆情的智能分析决策方面,以自然语言处理技术与数据挖掘技术为基础,融入包括智能检索、自动摘要、热点事件自动发现、热点词发现等高级需求,对舆情报警以及统计报表等功能进行扩展。

网络舆情监测系统范文第2篇

[关键词]舆情监测;系统框架;网络环境;模板功能

中图分类号:TP391.1 文献标识码:A 文章编号:1009-914X(2016)15-0306-01

2016年1月22日,CNNIC(中国互联网信息中心)我国第37次《互联网发展状况统计报告》,该报告中指出,截止到2015年底,我国网民的总数量已经达到6.88亿,年增长率为6.1%,计算机、互联网在国内的普及率超过50.0%,数据表明我国互联网的普及速度较快,手机、电脑等移动终端已逐步覆盖于人们生活,只要在有网的情况下,人们接收、传播信息的速度将会变得更快。极大程度改变人们沟通交流方式的同时,也对网络舆情监测提出了更高要求。

1.网络舆情监测系统发展研究现状

互联网是一个全开放型的交流平台,与传统媒体相比,传播信息的速度更快,同时人们也可通过微博、论坛、贴吧等平台,成为传播信息的主体,这也加速了网络舆情的形成。受到网民素质、网络环境等因素的影响,网络中仍存在很多不良消息,如暴力、恐怖等,如果被某些不法分子利用,将会造成极大的网络动态,导致社会中存在不稳定因素。因此,相关政府必须加大对网络舆情监测的重视程度,采取针对性解决措施,为网民创建更安全的环境。

网络舆情监测工作在国际中发展历程较长,最为传统的监测手段一般采取手工操作,以人工方式为基础,通过员工监测指定页面的方式,检索出页面中重点监测词汇,从而寻找出最新的舆情动向。随着互联网的飞速发展,该种监测技术已经不能适应大量信息的需求,基于此,TDT研究项目产生,其核心内容包括话题追踪、监测、报告及关联监测等。

2.构建系统模块框架

构建网络舆情监测系统框架,需要广大技术人员与政府机构共同努力,结合我国网民实际需求,不断健全系统监测模块,营造良好的网络环境。从监测过程及程序的角度分析,其框架本质为获取收集数据、整理数据、依据不同用户要求分析,整个系统模块的构造如图1所示[1]:

2.1 收集数据模块

收集数据模块是网络舆论监测系统框架最基础的模块,主要发挥着获取网络信息的功能,具备全天候不间断收集、自动收集等特点,既可收集整个网络也能指定网络进行收集。在收集的过程中,应注意以下两方面的事项,一是尽可能获取最为全面的数据,保障数据的完整性与原始性;二是提升数据收集的准确性与可靠性,所有被收集的数据应尽量符合网络用户关注的舆论热点,满足以上两个条件后,才能更好地进行舆情预处理与分析。

当前,收集数据的方式主要有以下两种:一是网络爬虫技术[2],HTML协议作为互联网中基本协议,以URL(统一资源定位符)为基础,将互联网中绝大部分资源联系起来,形成一个完整的整体。而网络爬虫技术是指从预先设置好的URL列表出发,按照顺序对列表中页面进行访问并获取数据,并通过分析页面中其他URL,并智能选择出符合系统要求的URL,将其放到待访问队列,通过遍历式访问,搜查限定范围,更为精准的获取数据;二是元搜集技术,搜索引起是大多数用户进入网络的途径,随着互联网技术的飞速发展,提供搜索引擎的服务商越来越多,通过对不同的搜索引擎设置元搜索的方式,从而更为广阔的收集不同引擎间的数值,该种技术构建简单,且数据获取准确率较高。

2.2 预先处理数据模块

网络页面中存在的数据较多,且具有自身特点,包括描述与内容两种,属于半结构化形式的数据,如果直接对已获取的数据进行分析,将会增加其分析难度,因此,需对数据进行预处理,主要包括以下两个步骤:首先,提取网页中热点内容,从噪音中摘取出用户关注的新闻或者其他内容,并将其转化为HTML标签树[3],并建立出对应的提取规则;其次,进行文本分词环节,对于页面中获取的连续、非结构性文本进行对应处理,使其更加规范化。

2.3 整理数据模块

整理分析数据模块是系统框架中最为核心的模块,具备主题聚类、发现热点、等方面的功能。基于主题聚类而对角度分析,聚类能够更为直观的展示新主题,并将整理过后的内容归结到同一特征的空间中;发现热点主要是指发现人们舆论关注点,在互联网的时代背景下,网络中的舆情主题无时无刻不在变化,而舆情监测系统能够将热点问题从诸多主题中科学选择出来,并合理推送到舆情分析工作人员手中。整理数据模块的过程中,工作人员应注意填写好网络舆情监控登记表,具体模块内容如表1所示:

2.4 呈现结果模块

呈现结果模块主要是为科学展示网络舆分析,并为决策提供参考依据,经过分析的结果能够更为简单的传递到决策工作人员手中,其具备以下几方面的功能:查询所有针对性主题;推送最新网络主题;警告拐点或舆情热点;舆情发展变化情况等。

3.结束语

综上所述,随着计算机技术的飞速发展,人们对互联网的依赖程度越来越大,因此,相关政府机构须加大对舆情监测系统的重视程度,结合网络信息传播特点,遵循监测系统运转程序,即收集数据、预处理数据、整理数据、呈现结果数据,在这个过程中,应从以下两方面展开工作。首先,对于收集数据而言,应尽量拓宽监控网页种类,通过搜集社区网页、论坛数据的方式,更广泛、全面的获取专业网络舆论数据;其次,对于分析、决策舆情而言,须以数据挖掘、语言处理等技术为前提,加入自动摘要、热点搜索、智能搜索等用户高级需求,进一步扩展舆情报警等功能,创建出更为和谐的网络环境。

参考文献

[1] 董天策.网络公共事件研究的符号学路径――《网络公共事件:符号、对话与社会认同》序[J].新闻研究导刊,2015,22:200+189.

[2] 谢贵春,冯果.信息赋能、信息防险与信息调控――信息视野下的金融法变革路径[J].北方法学,2015,06:38-48.

网络舆情监测系统范文第3篇

〔关键词〕网络舆情;爬虫;关键字排名

DOI:10.3969/j.issn.1008-0821.2013.11.009

〔中图分类号〕TP301 〔文献标识码〕A 〔文章编号〕1008-0821(2013)11-0038-04

舆情是民众关于现实社会中各种现象、问题所表达的政治信念、态度、意见和情绪的总和[1-2]。网络舆情信息是指社会民众通过互联网这一媒介所表达的情绪、态度、信念、意识、思想、意见、要求和行为方式等方面的综合表现,是对现代社会物质、政治、精神和社会4个文明建设活动的各种反映[3-5]《2012年互联网舆情分析报告》蓝皮书指出,2012年微博成为社会舆情的发动机,在本年网民重点关注的是社会转型、环境问题、问题、南海问题等热点话题。据统计2012全年关于“与反日游行”话题的网络博文合计17 742万篇,“伦敦奥运”话题博文7 583万篇,“神舟九号与天宫一号对接”的话题博文3 923万篇。由此可见,网络舆情基本都是在短期爆发的,且影响范围广泛,都是些对国家、对社会意义深远的热门话题。因此,对网络舆情进行监测分析是十分必要的。随着科技的发展,计算机技术的迅速普及与推广,网络为社会各阶层的人们提供了广阔、自由的交流平台[6],互联网成为了社会网络舆情传播的主要平台。而网络舆情主要来自于BBS、博客、微博、点评等,在网络中网民平等的表达着自己的观点,可以说真话,也可以说假话,言论相对自由,网络的开放性直接决定了网络舆情的直接性、突发性、偏差性。网络舆情的独立属性,信息流和环境会影响舆论的传播[7]。网络舆情主要来自BBS、博客、微博、点评等,在网络中网民平等的表达着自己的观点,言论相对自由,网络的开放性直接地决定了网络舆情的直接性、突发性和偏差性。本文设计的网络舆情监测系统,主要考虑以下几个方面:(1)对主流的社交网站、门户网站的网页、帖吧、文本文件、新闻评论、微博、博客等近期的信息,进行分类存储处理。(2)对指定的网站上的近期信息,包括网页、帖吧、文本文件、新闻评论、微博、博客等数据进行采集与归类存储处理。(3)对采集到的各种数据进行关键字分词处理,分词存储,分词评分,分词排名等处理。(4)建设关键字检索系统,检索的结果按照标题与内容的综合评分进行合理的排序。(5)本网络检测系统,采用合理的框架,预留更多未来开发的扩展接口,方便开源与二次开发。

2013年11月第33卷第11期现?代?情?报Journal of Modern InformationNov.,2013Vol.33 No.112013年11月第33卷第11期网络舆情监测系统的研究与实现Nov.,2013Vol.33 No.111 系统的主要功能模块

1.1 网络舆情的采集模块根据设置的检索条件,如限定域名的http:∥/的所有页面的信息,将采集的数据适当的过滤,留下有用的关键数据。爬取的对象为重点新闻网站、知名社交网站、各大论坛,博客,以及政府网站等。

1.2 数据处理模块对从网络上采集而来的数据进行处理,处理的手段包括:归类、分词、标注、加权、存储优化等。

1.3 关键字检索为本网络舆情监控系统提供一个搜索引擎的功能,方便对网络蜘蛛爬取的数据进行查看管理。在一次检索的基础上,提供二次检索。提供智能的检索方案,按字索引、按词索引以及字词混合索引,对检索结果进行排名与统计。

1.4 舆情分析与统计舆情分析是对舆情进行深层次的思维加工和分析研究。主要包括内容分析法和实证分析法。内容分析法对信息内容进行客观系统的定量分析,提示信息所含有的隐性情报内容,对事物发展做情报预测。实证分析法是通过分析大量案例和相关数据从而得出结论的一种研究方法。经过分析后,可以自动提取关键字,提取一段完整的内容进行智能提取摘要,也可以根据已经设置的检索条件进行动态地提取摘要。对标题进行分词检索与排名。智能识别数据并归档到本地数据源。网上数据的表示可以采用“点”与“线”组成的模型图,来表示互联网中的各类数据。用“线”来表示各个页面之间的URL链接关系,用“点”来表示网络中的各个页面。在这样的一个由点线组成的网状结构的图形中,每一个点与线都表达了非常重要的信息。所以互联网中的文本类型的数据可以简单的划分成由页面标题、页面的内容、页面的超文本标记以及页面之间的URL链接等构成。一般的HTML页面由Head标签和Body表组成,主要的元素有标题Title,表格Table,层div等信息标签组成。然而每当用户浏览器收到数据时,去掉多媒体信息数据,如视频数据、flas、图片数据、音频数据等非文本文件数据,其余的文本文件所包含的信息可以分为两类:一类是用于结构控制的HTML标签,HTML由“〈”和“〉”构成一个标签,如〈div〉、〈head〉等标签;另外一类就是内容信息了,这些信息就提供给我们可以直接阅读的文字。也就是我们最终需要分词处理,存储处理的,建立索引的文本数据。在页面设计的时候,为了方便搜索引擎搜录其页面的信息,通常会在页面添加关键字,在页面的〈head〉标签中,可以添加〈meta name=”关键字1,关键字2,关键字3”content=”页面摘要描述……”〉的标签信息来描述本页面的主要信息,方便搜索引擎的网络蜘蛛爬取信息。

1.5 关键字高亮显示在查询检索结果中,对关键字进行统计并高亮显示,虽然是一个小功能,但是技术实现的难度大,对用户体验有较高的提升,使得在检索结果中对关键的信息对用户一目了然。

1.6 网络舆情的预测通过分析近期捕获的网络舆情,对这些数据进行自动分类,进一步聚类,并统计出各个关键字的数据图表,周期升降率,从而预测未来的舆情演化与趋势。

2 系统架构本网络舆情监测系统采用MVC的设计模式。MVC的全称就是Model View Controller的缩写,意思为模型model——视图view——控制器controller,MVC是最常用的一种程序基本结构的设计,使用MVC架构可以使业务逻辑模块、数据链路模块、UI界面模块具有良好的分层,这3个模块在具体的实现内容上彼此分离,在关系上又彼此调用,可以使各个模块的负责人集中精力编写各自的模块,只需要对彼此的调用关系提供接口,以便降低程序关系的耦合度,达到高内聚低耦合的目的,在MVC架构发展的近些年中,许多有经验的程序员习惯用Java的反射特性来更好地控制UI界面模块和业务逻辑模块的耦合性。利用MVC独特的界面层、控制层、数据模型层的良好解耦的特点,本系统基本架构为:

图1 MVC系统架构示意图

2.1 系统的功能架构本网络舆情监测系统按功能模块划分,可大致划分为网络爬虫采集模块、中文分词系统、UI界面管理模块、索引文件管理模块、内容搜索及搜索显示模块、中文全文检索系统、关键字智能评分系统、关键字高亮显示模块等模块。

网络舆情监控系统网络爬虫采集模块中文分词系统UI界面管理模块索引文件管理模块内容搜索及搜索显示模块中文全文检索系统关键字智能评分系统关键字高亮显示模块图2 系统各个功能模块

2.1.1 网络爬虫网络蜘蛛(Web Spider),也翻译为网络爬虫(Web Crawler),不管用其中的哪一个翻译都是一个非常形象的名称。其实,网络就好比蜘蛛网一样,上面有无数个节点,爬虫Crawler就好比是在网络中爬来爬去的一只虫子。网络蜘蛛在搜寻的网页中检索一个个超链接URL,再对各个URL进行判断是否曾经检索过,如果没有,则通过该链接进行信息爬取,并且一直循环爬取,一直到把该网站所有的页面都爬取完为止。

2.1.2 中文分词系统英文单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,惟独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比之英文要复杂的多,困难的多。中文分词系统用于将一个又一个的单个汉字进行分词。一般中文分词是先判断前面和后面的几个汉字能否和本汉字组成为一个词语,并把前后连续的几个汉字,按照一定的顺序和语法进行重新排列或组合成为一个词序列的过程。中文分词最重要的是把最相关的结果排在最前面,这也称为相关度排序。

2.1.3 中文全文检索系统中文全文检索是指把一个中文的文件中的全部的文本和检索项,进行全文式的匹配检索文本文件的方法。中文的全文检索可以把一个数据库或者一些文本文件,一个Web页面的内容进行全文查找检索。该系统还能分析文中的相关字、词、句、段、篇等内容,并带有统计功能,如果我们给一本书的每一个分词都加上一个分字标签,那么就可以统计分析全文的内容了。比如,我们要统计“中国名著《西游记》这本书中,‘孙悟空’一词在本书中共出现多少次”就可以通过这个检索方法实现。

2.1.4 UI界面触发的事件反射到逻辑的处理事件的反射处理是利用Java的反射原理将View层中的事件反射到逻辑中来执行,UI响应反射事件时,需要通过事件动作配置数据Relation.java类,判断事件的类型,事件分为“无条件跳转”和“执行逻辑函数”两种类型。

图3 响应事件流程图

3 网络舆情的统计与分析如果人工采集互联网上的信息,这个工作量将会是巨大的,因此需要研究如何在网络上进行自动实现信息采集,并及时的对采集来的信息进行处理,由人工采集信息的防拥塞,变为自动采集的自动归类,梳理,建立索引。图4 中文分词的输入输出

网络舆情分析系统是处理已采集信息的核心功能模块,具体功能如下:(1)可以对热门话题与敏感词汇进行标识。(2)可以根据新闻机构的权威度、回复数量、评论的频率,对信息进行评分加权,使得检索时排位靠前。(3)可以识别出采集的信息在某一段时间内是否是最热门的话题,使用关键字的分词、排序、语法分析和语义分析,来辨别各类文章中是否包含敏感话题。互联网页面上的数据不仅包括页面的内容数据,还含有一些HTML超文本标签主要用来对网页的结构进行设计。目前,部分国际化组织制定HMTL5协议对页面上的数据的格式进行统一的标记,但是这一类协议仅仅用于内容信息的表述形式上,这样做的原因是让浏览页面的用户能够更好地阅读页面信息。

4 结 论本文在现有网络舆情研究的基础上,依据系统性、科学性、可靠性及可操作性原则,对如何采集监测网络舆情信息进行深入剖析,这有助于了解网络舆情发展规律,并据此设计了网络舆情监测系统,当然,该系统的功能还需进一步完善以便推广使用。

参考文献

[1]董亚倩,邓尚民.基于社会网络分析的网络舆情主体挖掘研究[J].情报资料工作,2011,(6):45-49.

[2]石彭辉.基于社会网络分析的网络舆情实证研究[J].现代情报,2013,33(2):27-31.

[3]Xiao Qiang.The Rising Tide of Internet[R].International Journalism Nieman Reports,2004:103-104.

[4]Guo Liang.The Internet is Changing China[EB/OL].http:∥china.usc.edu/app-images/guoliang.Pdf.

[5]戴媛,姚飞.基于网络舆情安全的信息挖掘及评估指标体系研究[J].情报理论与实践,2008,31(6):873-876.

[6]陈新杰,呼雨,兰月新.网络舆情监测指标体系构建研究[J].现代情报,2012,32(5):4-7.

网络舆情监测系统范文第4篇

作为国家重点新闻网站,同时也是大陆最大的涉藏网站,中国网的担心并非多余。2012年2月以来,受到一系列藏人自焚事件的影响,大陆地区一些颇具人气的藏文博客被关闭。青海湖网的藏文博客一度发出公告称:“由于部分用户不按照此博客宗旨发表日志,暂时关闭此博客,敬请广大博友谅解。”

此前亦有境外媒体报道称,著名的藏文博客网站也曾被关停,“原因是该网站发表的诗歌《哀痛》描述了发生在的自焚事件。”

目前,内地基于中文的网络舆情监测系统已经有较为成熟的研究成果,但由于少数民族语言文字信息化处理水平整体相对滞后,监管部门尚没有成熟的软件系统对少数民族文字的网站进行舆情监测,于是,在一些敏感事件发生之后,不得不关闭网站以应对日益复杂的网络舆情。

中央民族大学等机构正在进行《藏、维文网络敏感信息自动发现和预警技术》的课题研究,或许可以从一定程度上改变这种简单化的管理方式,也将缓解娜科等网站编辑在内容监管方面的工作压力。

藏文、维文网站是管理重点

中国互联网络信中心(CNNIC)的《第28次中国互联网络发展状况统计报告》显示,截至2011年6月底,大陆网民数量已达4.85亿。在公众对中文网络的使用越来越熟练的同时,少数民族文字网站也提上官方管理日程。

赵小兵是中央民族大学信息工程学院教授,同时担任国家语言资源监测与研究中心少数民族语言分中心副主任。据他介绍,目前直接使用少数民族语言文字的网站并不多,主要有蒙古文、藏文、维吾尔文、哈萨克文、柯尔克孜文、朝鲜文、彝文、壮文、傣文等9个民族10种文字(傣文包含新傣文和老傣文两种文字)。根据该中心2011年的调查,大陆少数民族语言文字的网站总量在389个左右,其中维吾尔文网站175个、藏文网站109个。

1999年12月,世界首家藏文网站在西北民族学院建立,此后藏文网页的数量不断增长,大量的藏文论坛和藏文博客涌现出来。藏文网站从2009年的45个发展到2012年的130个。与全国网民增长速度相比,藏族网民的增速较为突出,增幅达86%,远远高于全国平均增长速度。

网络的普及正在改变藏族民众的生活方式。一些藏传佛教寺庙里的佛学院也为修行的学僧开设了计算机课程,学习打字、排版和网页设计等内容,并将推出自己的网站。考虑到民众使用藏语文的习惯,也―直致力于藏语言文字与现代化的信息技术同步发展的研究。早在1997年,藏文字符计算机编码就成为中国第一个具有国际标准、获得全球信息高速公路通行证的少数民族文字。

1998年,新疆诞生了第一个维文网站――塔克拉玛干,经过十几年的发展,维吾尔文网站也形成了一定的规模。但是2009年乌鲁木齐市发生“7.5”烧严重暴力事件之后,新疆网站数量明显下降。原因是新疆维吾尔自治区通信管理局对全区已备案网站主体信息进行人工电话核查,从7月到12月,依据《非经营性互联网信息服务备案管理办法》注销了包括中文和维文网站在内的4966家网站备案。

舆情监测的现实困境

少数民族网站在境内蓬勃发展的同时,境外网站数量也有显著增加。2008年“3・14”事件发生之后,《环球时报》引述外媒的报道称,在过去几年内,有大量宣扬“”的网站和网页出现,“‘流亡政府’已将互联网当做了一个强有力的吸引藏人对抗中国的武器。”

一年之后,新疆乌鲁木齐“7・5”事件让官方再次注意到互联网的作用。“7・5”事件发生之前,有些维文网站大批转载广东韶关旭日玩具厂“6・26”聚众斗殴事件,利用网络论坛进行造谣煽动,直到7月4日晚,一些网民在QQ群、维吾尔文论坛和个人空间发帖,响应“世维会”在境外组织的游行示威。大陆学者撰文称,“从‘7・5’事件我们认识到,维吾尔文个人网站已经成为舆情的重要窗口。”“目前有些维吾尔文个人网站论坛转载境外信息,报道不实消息,在一定范围内造成了恶劣的影响。维文新闻信息,特别是时政类信息的宣传存在着极大的安全隐患。” 2006年6月27日,拉萨,一位年轻的喇嘛在网吧使用互联网。

其后,随着越来越多的少数民族运用本民族的文字,通过互联网来表达自己的情绪、态度、意见及要求,形成了少数民族地区的网络舆情。许多研究机构和市场主体声称,他们可以为客户提供这类网络舆情的监测服务:其舆情监控系统可在短时间内实现对新闻、论坛、博客、贴吧等各类网络信息进行汇集、分类、整合、筛选,也可对定制关键词的相关主题进行实时监测,全面分析网络舆隋发展趋势,提供基于网络舆情监测的决策参考和风险预警。

但政府部门对网络中藏文舆隋监控尚处于传统的人工方式,人民网舆情监测室尽管能够提供蒙古、藏、维吾尔、哈萨克、朝鲜等少数民族语言的舆情报告但也是通过人工检索进行分析,与中文舆情报告相比,欠缺科学的分析工具。

一些商业机构如谷尼国际软件公司,也开发了“谷尼互联网舆情监控系统(多语言版)”,支持维文、斯拉夫维文、拉丁维文的舆情服务。中科点击科技有限公司生产的“军犬网络舆情监测系统”,也声称“可有效监控藏文、维吾尔文、蒙古文、彝文、朝鲜文等少数民族语言舆情信息”。

谷尼国际软件公司副总邹鸿强告诉记者,针对少数民族语言舆情监测需求,在“3・14”事件和“7・5”事件后明显增多,客户不仅有宣传部门,还有公安机关和安全部门。

但是,谷尼国际软件公司提供的少数民族语言监测服务,目前仅能实现定向采集与全网搜索这两种监测方式,至于中文舆情监测中的内容情感分析、主题词自动提取、全文检索等服务则无法实现,主要原因是“没有少数民族语言的相关词库和知识库。”这些都有赖于相关学术机构提供基础性的研究成果。

预警敏感信息

目前大陆开展少数民族信息处理研究的学术机构并不多,主要集中在中央民族大学、新疆大学、大学、内蒙古大学、西北民族大学、青海师范大学和中国社会科学院等高等院校和科研机构。随着少数民族网络舆情监控系统的应用需求越来越强烈,大陆近年来明显加强了这方面的研究投入。

中央民族大学承担的“藏、维文网络敏感信息自动发现和预警技术研究”课题,获得了国家民委的资助;西北民族大学中国民族信息技术研究院也开展了相关研究,其研究论文《基于藏文网页的网络舆情监控系统研究》获得了国家863项目“多语言基础资源库研制和共享”的基金资助。

赵小兵介绍说:“藏文信息处理技术的发展与中英文相比具有一定的滞后性,存在着编码方式不统一、藏文分词技术不成熟等问题,这样将对敏感词的监控以及话题的发现与跟踪造成极大的困难,很大程度上影响舆情监控的质量。”

中央民大学信息工程学院副教授闫晓东是“藏、维文网络敏感信息自动发现和预警技术研究”课题负责人。她告诉记者,该项目到2013年结项,预期目的是能够针对各类敏感信息,提出不同级别的预警方案,“目前能做到敏感词的自动发现和跟踪。”

赵小兵补充说,如果仅仅依靠关键词匹配的方式进行网站管理,发现敏感词就进行过滤的话,非常容易产生误判,也会带来负面效果。“少数民族语言本身的含义非常丰富,它有很多同义词,一个所谓的敏感词放在一句话中也许表达的意思可能并不敏感,同样,一个非敏感词恰恰可以用来表达敏感的意思。这种语言的多义胜与复杂性要求我们的检测软件更加智能,能够从词语的深层含义去判断它是否敏感,而不是简单地抓出一个表面形式上的词。这就要求我们的管理者不能将管理简单化,一定要人性化、智能化。”

西北民族大学研发的舆情监控系统目前据称可以“对藏文网页的‘敏感点’进行监控以及对‘热点’实现预警,有效地解决政府部门以传统人工方式对藏文进行舆情监测的实施难题,为政府掌握藏族地区的舆情状况以及网络文化安全作出贡献。”

另据记者了解,公安部门也在开发一套藏文舆情监测系统,其目的是掌握境内外藏文网络舆隋,从源头上了解境外“”(敌对势力、民族分裂势力和暴力恐怖势力)的最新动向,在应对其可能对境内造成的影响时把握主动权。该软件目前已经在公安系统内部测试使用。

由于现有技术手段不够成熟,内地少数民族文字网站普遍面临较大的监管压力,对于用户创造内容的博客和微博业务,一般不会轻易涉足。即使开通了这一业务,也都采用先审核后的办法,以应对可能出现的内容风险。

天山网是目前大陆唯一一家开通维吾尔文微博的维文网站,由新疆维吾尔自治区党委宣传部主办。维文微博自2012年3月开通以来,注册用户数量已超过3瓦每天的微博数量超过5000条,依靠3名管理员24个小时轮流值班进行审核,平均每个管理员每天审核1500多条微博。随着用户数量的增加,天山网只能依靠增加管理员的办法进行内容审核,保证网站运行安全。

网络舆情监测系统范文第5篇

【关键词】微博话题 舆情分析 情感词典 观点识别

随着电子商务的快速发展,越来越多的人通过电子商务网站来了解产品信息、购买商品,并且通过评价表达自己购买商品过程中的感受、对购买商品的满意程度和相关建议要求。评价和打分等商品舆情信息是买家了解电子商务网站产品和商家服务的一种重要渠道和表达方式。文本情感分析是对给出的文本的感彩进行分析、归纳的过程,即判断一篇文本中观点持有者对某个事件或商品持有的正向、负向或中立的态度。它属于信息检索或者自然语言处理的范畴。目前,国内已有许多专家、学者就舆情分析技术根据实现的方法分为基于词的倾向性分析和基于机器学习的倾向性分析,如杨震等人在网络舆情内容分析中,提出基于字符串相似性聚类的网络短文本舆情热点发现技术。Kouloumpis等利用微博中的口语和网络语言来提高情感倾向分析的准确性。

基于以上需求,本文设计实现了一个基于舆情获取、舆情分析等功能的微博话题电商产品质量网络舆情监测系统。通过对各类BBS论坛、博客和微博中带有倾向性的舆情内容进行热度、情感分析,了解公众对该话题的关注度,及时掌握公众对该热门话题的态度;并对其进行扩散情况统计,了解该话题在哪些地区先产生影响并逐渐扩散到其他地区。

1 舆情信息分析关键技术

1.1 舆情获取模块

舆情获取(网络爬虫)模块是通过用户指定话题、微博平台及话题起始时间、结束时间的方式从网络中爬取相关数据。数据内容包括微博用户ID、用户所在地区、微博文本内容(由于微博文字有长度限制,微博文本内容可以用MySQL表中的一列来存储)、微博发送时间、转发数、评论数等重要信息。虽然各个微博网站都有开放的API,但由于微博API存在IP访问次数、单用户访问次数等诸多限制,使用API来爬取大量微博数据并不高效,会造成微博账户或者IP地址被封禁的后果。因此根据不同微博网页的特性,使用Python语言编写各个网站的爬虫程序,以多线程的方式来爬取微博数据。这样不仅快速高效,而且通过在程序中设置定时休眠,来避免爬虫程序因长时间高频率地访问微博网站而导致账户或IP被禁用。

舆情获取是通过网络爬虫从微博网站获取相关数据并保存至MySQL数据库中,当用户最终在舆情获取界面中选择不同的数据来源时,后台将去调用对应的微博网站的爬虫程序,而用户不会感受到不同网站、不同程序之间的差异。

1.2 中科院ICTCLAS分词系统

中文分词(Chinese Word Segmentation) 指的是将连续的汉字串切分为带有分割标记的一个一个的词串。中国科学院计算技术研究所在多年研究工作积累的基础上,研制了汉语词法分析系统ICTCLAS,主要功能包括中文分词、词性标注、命名实体识别、新词识别等。ICTCLAS 分词速度单机500KB/S,分词精度98.45%,API不超过100KB,各种词典数据压缩后不到3M。系统采用中科院的ICTCLAS 分词系统,分词后根据得到的词性标注将介词、助词、叹词、语气词、拟声词、标点符号、停用词去掉,得到该文档中的特征词。

1.3 舆情分析模块

舆情分析模块是系统的核心模块,在舆情分析过程中包含两个重要模块:Core Module和Luence Module,主要是基于舆情获取模块所下载的数据,对指定时间内该舆情事件话题进行持续追踪和溯源。Luence是一个全文检索引擎的架构,所以Luence Module可以实现全文检索功能,解决互联网舆情监控分析问题。它采用增量式索引策略,对MySQL数据及其他形式数据建立小索引small index;为防止在索引合并时又有搜索请求,备份大索引backup index,将小索引与备份大索引合并成new index;最后将索引接口从index切换到此索引new index上。Core Module的功能是计算记录权重值weight以及记录情绪值emotion,为之后的情感倾向性分析提供支持,如图1所示。

2 舆情信息分析系统实现系统描述

基于微博话题的电商产品质量网络舆情监测系统利用网页舆情信息提取、关键词提取、文本倾向性分析等关键技术对网络舆情进行分析,对用户感兴趣的特定内容进行动态发现与跟踪。该系统根据上述分析模型,采用Java Strust2.0,SQL SERVER数据库实现B/S结构系统软件。该系统主要包含3个部分:舆情获取、舆情分析和词库管理,具体功能界面部分如图2所示。

针对“各类鼠标产品质量舆情信息”,用户自己在舆情获取模块输入框中选择数据来源(新浪、腾讯微博等)、话题关键字、开始时间和结束时间来下载需要的微博数据,选择完后点击“开始爬虫”,后台就会执行爬虫程序,将所下载到的数据保存到本地的数据库中。通过WEB文本预处理模块将采集、净化后的纯文本作进一步的信息处理,包括中文分词、特征提取、降维处理等,获得舆情分析准备阶段的相关数据,如图3所示。

本系统实现网络舆情分析中的主题发现技术,包括舆情信息预处理和舆情信息主题发现。系统除爬取舆情数据获取微博内容的相关信息,还获得微博用户的个人主页获取其所在地区的信息,分别统计关于某事件的微博每天在不同地区的数目,根据数目大小着以不同颜色,得到每天的分布情况。实现网络舆情信息的主题发现,进行话题热度走势分析、情感倾向性分析、话题相关度分析、话题扩散情况分析等,并以图表形式直观地展示给用户。

3 结语

本文提出一个基于情感分析的电子商务产品质量舆情分析模型,并从舆情获取(使用一种多线程的爬虫方式)、舆情分析(包括情感倾向性分析、话题相关度分析、话题扩散情况分析)等关键技术加以详细讨论,最终设计实现了一个面向微博话题的舆情数据服务平台。下一步工作是将该系统试运行在国家电子商务产品质量风险监测中心相关监管部门,通过测试分析将对系统存在的问题做进一步的改进和完善。

参考文献

[1]胡学钢,董学春,谢飞.基于词向量空间模型的中文文本分类方法[J].合肥工业大学学报(自然科学版),2007(10),30:1261-1264.

作者简介

柳毅,博士学位。现为杭州电子科技大学管理学院副教授。研究方向为网络舆情分析。

钱枫,硕士学位。现为杭州市质量技术监督检测院教授级高级工程师。研究方向为质量体系管理。

陈育旺,硕士学位。现为杭州市质量技术监督检测院教授级高级工程师。研究方向为电子商务产品质量风险监测。

作者单位

1.杭州电子科技大学管理学院 浙江省杭州市 310018

网络舆情监测系统范文第6篇

关键词:主题模型 网络舆情系统 情感分析

中图分类号:G212 文献标识码:A 文章编号:1674-098X(2014)10(c)-0185-02

LDA inquiry-based Chinese minority network public opinion monitoring system

GONG Pan WANG Jiamei YANG Xiaowei

(Yunnan Minzu University, Electrical and Information Engineering, Kunming,Yunnan,650500,China)

Abstract:With the development of ethnic areas of information technology, the Chinese minority language network public opinion research has gradually attracted everyone's attention, text classification and sentiment analysis module is an important part of public opinion of the system. Traditional text classification methods, mainly through word repetitions statistics literally, and semantic association little consideration for the text behind. This article focuses on the LDA model based on minority languages ??(with Yi for example) the application of information network public opinion sentiment analysis aspects of the theme of the text implied modeling, data mining minorities through public opinion on a web page that contains the theme, as well as sentiment analysis of these topics, before the incident broke out, Bian take emergency measures.

Key Words:Topic model;network public opinion;the detection system

目前,支持少数民族语言文字的计算机软件的应用范围逐渐扩大,越来越多的少数民族人口开始接触、熟悉网络,使得互联网迅速成为我国少数民族地区人口表达自身意愿、共享民族文化、彼此交流信息的重要媒介。采用科学的理论方法,进行中国少数民族语言网络舆情信息的分析和研究,不仅是政府在现如今的大数据时代下实现科学、民主决策的基本需要,更是保证少数民族地区稳定、繁荣的重要条件。目前,云南境内影响力较大的少数民族官方网站比较少,信息及舆论导向能力相对比较薄弱。有些网站论坛甚至转载境外不实信息,加以报道,在一定范围内造成了极为恶劣的影响。民族语言新闻信息,特别是时政类信息的传播对国家安全存在极大的隐患。因此,做好网络舆情信息研究工作、正确领导社会舆论、加强网上舆论斗争是防止势力渗透,建设稳定、团结、和谐社会的迫切需要。

传统判断两个文本相似性的方法主要是通过统计的方法,查看这两个文本中共同出现的词语数,如TF-IDF等,但是这种方法并没有考虑到文字背后可能存在的语义关联,两个文本当中,共同出现的词语或许很少甚至没有,但这两个文本却是相似的。所以在进行文本相关性判断的时候,需要考虑到文本的语义,而主题模型则是语义挖掘的利器,LDA就是其中比较有效的一种模型。

以LDA(Latent Dirichlet Allocation)模型[1]为代表的主题模型是近年来文本挖掘领域的一个热门研究方向。该模型具有优秀的降维能力以及良好的扩展性,并且能够针对复杂系统进行建模。利用主题建模挖掘出的主题能够帮助人们进一步理解海量文本所隐藏的语义,从而完成文本分类、话题检测和关联判断等多方面的文本挖掘任务。彝文在少数民族语言当中具有典型性和代表性,该文以云南跨境民族语言―彝文为例,将LDA模型应用于彝文网络舆情信息情感分析系统当中,对于潜在的语义进行探索。

1 LDA模型研究

1.1 概率主题模型的提出

主题模型(Topic Modeling)成为近年来文本挖掘领域的热点之一,它能够发现文本与词语之间的潜在语义关系(即主题)――通过将文本看成是一组主题的混合分布,而主题又是词语的概率分布,从而将高维度的向量空间映射到低维度的空间。即“文本-词语”映射为“文本-主题”和“主题-词语”,从而有效地提高了文本信息处理的性能。

现在,计算机还不具备人脑的结构,对于自然语言的理解仍然存在一定的困难,所以需将无结构的自然语言文本转化为可以供计算机进行识别的特征文本。向量空间模型(VSM)是20世纪60年代提出的一种文本表示模型,它将文档表示成特征元素的集合,来表示自然语言,但其没有体现词语在文档中出现的频率,之后,基于词频统计的TF方法被提出。20世纪80年代,研究人员在TF的基础上进行改进,又提出TF-IDF(词频-逆文档频率)技术,该技术思想简单,容易理解,被广泛应用。但是,该技术无法捕捉文本内部与文本间的统计特征,并且不能解决同义词/多义词的问题,因此精确度不是很高。

于1990年,Deerwester等人提出潜在语义分析LSA(Latent Semantic Analysis)模型,用于挖掘文本与词语之间所隐含的潜在语义关联[2]。其理论基础是数学中的奇异值矩阵分解(SVD)技术。其优点在于,它能够对词-文档之间的关联关系进行降维,进而减少了存储规模,但是在计算时,迭代次数非常多,复杂度呈三次方急剧增长。

鉴于LSA存在的一些缺点,Hofmann等人于1999年提出了一种基于概率的潜在语义分析PLSA(Probabilistic Latent Semantic Analysis)模型。该模型通过引入概率统计的思想,避免了SVD的大量复杂度。但是随着文本和词的个数的增加,模型变得越来越庞大;EM算法需要进行反复迭代,因此计算量也很大。于是,Blei等人于2003年提出一种新的主题模型LDA(Latent Dirichlet Allocation),它是一个层次贝叶斯模型,将模型的参数也看作是随机变量,从而引入控制参数的参数,实现彻底的“概率化”。

1.2 相关工作

中国少数民族语言文字分类很多,彝文就是其中的一种,由于计算机目前还无法理解自然语言,所以需将无结构的自然语言文本转化为可供计算机识别的特征文本。而语料库是存储于计算机中,并可利用计算机进行智能分析的语言素材的总体,是语言文字信息处理工作的基础。因此,建设大型的彝文基础语料库,不仅为彝语语言文字规范和标准的制定提供可靠的数据,也为之后进行的文本分类和情感分析工作奠定了基础。在参考了汉语的既有分类语料库的基础上,结合已有的彝文语料,该文把彝文文本分类语料库分为七类,分别为色情、军事、化学医疗、信息科技、政治、宗教民俗。图1是其中的一部分。

1.3 模型建立

1.3.1 LDA模型

潜在狄里克雷分布(简称LDA)是文本生成模型中的一种,其基本思想是文本是由潜变量确定的主题随机混合而成的,而这些主题又可以表示为词语的分布。

给定一个文档集合,LDA将每个文档表示为一个主题集合,每个主题是一个多项式分布,用来捕获词之间的相关信息。如图2所示,包含词、主题和文档三层结构。其中θ是一个主题向量,向量的每一列表示每个主题在文档出现的概率,该向量为非负归一化向量;N表示要生成的文档的词语的个数,W表示生成的词语W。z表示所选择的主题,最外层的α和β是语料层次的参数,方框表示反复进行的过程,箭头表示采样工作,从图中可以看出,只需要采样一次就能够产生整个语料。

1.3.2 LDA生成文档

LDA方法使生成的文档可以包含多个主题,该模型需要首先选定一个主题向量θ,从而确定每个主题被选择的概率p(θ)。然后在生成每个词语的时候,从主题分布向量θ中选择一个主题z,表示给定θ时,主题z的概率分布,具体为θ的值。按主题z的单词概率分布再生成一个词语W,p(W|z)表示给定z时W的分布,可以看成一个k×v的矩阵,k为主题的个数,v为词语的个数,每行表示这个主题对应的单词的概率分布,即主题z所包含的各个词的概率,通过这个概率分布,按一定的概率生成每个词语。其图模型如图3所示。

通过对LDA生成模型的讨论,可以知道LDA模型主要是通过给定的输入彝文语料库中学习训练两个控制参数和β,确定了这两个控制参数就确定了模型,便可以用来生成文本。其中和β分别对应以下信息:

α:主题概率p(θ)需要一个向量参数,即Dirichlet分布参数,从而生成一个主题θ向量;

β:各个主题对应的词语概率分布矩阵p(W|z)。

从上图可知LDA的联合概率为:

(1)

1.3.3 参数估计

对文本的建模主要就是计算α和β两个参数。可以采用极大似然估计,找出一对α和β,使得似然函数值达到最大。可通过EM算法学习出α和β,在求解过程中,遇到后验概率p(θ,z|w)无法直接求解,需要找到一个似然函数下界来近似求解,每次E-step输入α和β,再计算似然函数,经过M-step使这个似然函数达到最大化,算出和β,不断迭代,直到其收敛。

2 主题模型在彝文文本情感分析中的应用

文本情感分析,又称意见挖掘(Opinion Mining),指对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程;属于计算语言学的范畴,涉及到机器学习[3]、数据挖掘、自然语言处理等多个研究领域。与客观性文本不同的是,主观色彩浓厚的信息往往蕴含着大众舆论对问题的看法,对政府部门具有十分重要的参考价值,例如:政府各部门需要全面掌握大众对其所管辖区域的新闻事件的思想动态,如果采用人工方式来收集和分析这些海量信息,显然成本高、效率低并且困难,通过利用计算机将非结构化的文本进行分类[4]和提取的文本情感分析技术(Text Sentiment Analysis)应运而生。通过挖掘网页所蕴含的主题,以及分析这些主题的情感偏好,来提高文本情感分析的性能。

从技术实现的角度,LDA及其扩展模型可以直接应用于用户评论文本挖掘中。基于此,有些研究人员提出从“词语-句子-段落-文档”角度进行多粒度划分的方法。从系统设计的角度,基于主题模型的文本情感分析系统主要包括以下部分:信息采集与预处理(如网页爬取、去噪处理、彝文分词、停用词处理等)、主题抽取、情感词抽取(彝文电子词典已经建立)、主题的情感分类或评分、主题情感摘要生成(方便用户直接了解主题)、系统评测等。

3 结语

尽管现阶段我国少数民族语言网络舆情研究系统并不多,但是从推进少数民族地区的民主管理和社会稳定的长远需求来看,进行少数民族语言网络舆情领域的理论研究,开发能够进行智能分析的网络舆情监测系统,对维护国家民族地区社会的繁荣和稳定具有非常重要的现实意义。该文将LDA主题模型应用到少数民族语言网络舆情信息情感分析当中,来对网络舆情信息进行深入分析,对政府部门做出贡献。

参考文献

[1] 翁伟,王厚峰.基于LDA的关键词抽取方法[C]//第五届全国青年计算语言学研讨会论文集,2010.

[2] 周博,岑荣伟,刘奕群,等.一种基于文档相似度的检索结果重排序方法[J].中文信息学报,2010,24(3):1849-1859.

[3] C.C.Chang,C.J.Lin.LIBSVM: a library for support vector machines[J].ACM Transactions on Intelligent Systems and Technology (TIST),2011,2(3):27.

[4] 奉国和.文本分类性能评价研究[J].情报杂志,2011,30(8):66-70.

网络舆情监测系统范文第7篇

关键词: 网络舆情; Lucene; Nutch; 元搜索引擎; 信息检索

中图分类号:TP309.2 文献标志码:A 文章编号:1006-8228(2014)11-19-03

Research of public opinion monitoring system in campus network based on

Nutch and meta search engine technology

Nie Yan

(College of Science and Technology, Ningbo University, Ningbo, Zhejiang 315202, China)

Abstract: Aiming at the insufficient public opinion monitoring work, combined with transmission characteristics of public opinion information in colleges, the whole scheme of constructing public opinion monitoring system is presented. Information retrieval technology based on Nutch searching engine is applied to campus network. Information collection technology based on Meta search engine is used on the Internet. The keywords feature library matching is used for automatic experiment monitoring and the public opinion information is found timely and accurately. In addition, the dealing methods such as monitoring, analysis, guide and feedback are discussed to form perfect coping mechanisms.

Key words: public opinion; Lucene; Nutch; meta search engine; information retrieval

0 引言

高校师生是网络利用率极高的一个群体,也是网络舆情的主要生成力量和影响对象。高校网络舆情的形成原因主要有三方面:一是由于国内外相关热点问题的触发,二是校内外突发事件的网上讨论,三是与高校师生利益密切相关事情的网上诉求。近年来,由于社会上网络舆情导致政府信任危机的事件不断发生,高校也逐渐重视了网络舆情突发事件的应对机制研究。同时,随着公安部对网络信息安全工作的逐步加强,高校利用自身技术优势,自主构建舆情监测系统并建立一套完善的应对机制正逐渐成为高校网络信息安全工作的重点。因此,在新形势下,遭遇突发事件,高校如何能以最快的速度收集网络上相关信息,跟踪事态发展, 及时向有关部门通报,防范网络不良舆情的快速扩散和演化,并建立相应的响应机制,实现对网络舆情的有效管理与控制,使健康的网络舆情成为维护高校稳定,推动社会文明发展的动力,已经成为当前亟需解决的重要课题。

高校的网络舆情信息主要来自两部分,一是内部独立的校园网络,二是外部开放的互联网络。随着高校校园信息化建设的深入发展,校园网中网站、论坛、博客等平台上信息资源数量呈指数级增长,仅依靠人工检索和信息审核的方式无法有效实现对网络舆情信息的监测,急需利用技术手段实现对海量网络信息的挖掘与分析,快速汇总成舆情信息;互联网上信息量十分巨大,通过垂直搜索引擎方式所获取的与高校相关的信息往往存在查全率不高的缺陷。高校网络舆情的监测,既要考虑信息采集的深度和广度,又要提高系统的精度与准度;同时对于发现的舆情信息,要能够做到快速定位,有效控制。本系统针对上述高校网络舆情监测工作的不足,并结合网络舆情传播特点,提出了构建高校网络舆情监测系统的整体方案,并探讨高校面对网络舆情在监测、分析、引导和反馈等环节的处理方法,从而形成完善的应对机制。

1 系统体系结构

高校网络舆情监测系统主要包括三个功能模块,分别是:校园网舆情信息采集模块、互联网舆情信息采集模块、网络舆情分析与预警模块,体系结构如图1所示。

图1 高校网络舆情检测系统体系结构

由于高校对校园网络具有较大的控制权限,一部分信息数据可利用各种信息系统的管理平台与数据库的访问权限来获取;另一部分可利用网络爬虫从网页数据中获取,系统基于Nutch搜索引擎技术对校园网内数据进行信息采集,采集的深度与广度都达到了较好的效果。对于互联网上的海量网络信息,如果采用垂直搜索引擎进行数据采集,所获取的数据质量不高,为此系统采用元搜索引擎技术来获取互联网信息,既提高了信息采集的针对性又扩大了采集范围。此外,对于某些特定的互联网网站,可以采取以上两种方式相结合的监测方式,同时采用网络爬虫与元搜索引擎技术,来提高系统的监测精度。

网络舆情分析与预警模块采用关键词特征库匹配方式和机器学习算法自动进行网络舆情监测,实现对舆情信息及时准确的发现,并与短信预警等系统接口实现对接,实现舆情信息的实时发送。

2 系统主要功能模块

2.1 Nutch搜索引擎与校园网信息检索

Nutch是一个开源的Java实现的Web搜索引擎,其在Lucene基础上添加了网页数据抓取功能,提供了构建搜索引擎所需的基本工具模块,包括网络爬虫、文本分析、分词工具、建立索引、搜索功能和结果过滤等。Lucene是一个高性能、可伸缩的信息搜索库,可为Nutch提供了文本索引和搜索的API,也可为应用程序添加索引和搜索功能,通过Lucene的数据库接口直接从数据库中取出数据,用API 建立索引并提供搜索接口。利用Nutch搜索引擎作为校园网舆情信息采集工具,不但可以缩短开发周期,提高开发效率,而且通过其内部的接口和插件机制可以实现对校园网数据的高质量采集。网络爬虫模块用来实现对校园网内网页文件的信息采集;Lucene接口实现与各种异构数据库的连接;利用Nutch的插件机制,采用POI插件和PDFBox插件来实现对Word、Excel、PDF等文档的读取。通过上述三种方式可以实现对校园网内多种异构数据源的信息采集。

2.2 元搜索引擎与互联网信息采集

元搜索引擎是建立在独立搜索引擎之上的搜索引擎。元搜索引擎没有自己的爬虫系统和索引系统,数据全部来自于不同的成员搜索引擎(例如 Baidu, Google, Bing等),元搜索引擎将用户的搜索请求转发给多个成员搜索引擎,对成员搜索引擎的查询结果进行筛选与去重操作后返回给用户。将元搜索引擎应用于系统可有效提高互联网范围内舆情信息采集的广度、精度和速度。各独立搜索引擎查询接口的格式和编码并不相同,首先要将元搜索引擎中的检索条件转换为各独立成员搜索引擎能够接受的格式,并通过各自的查询接口提交,然后对获得的HTML源文件格式的检索结果进行分析、处理,如百度搜索引擎返回结果中所包含的em、href标签,通过对上述标签信息的解析与提取,可以获得与之相对应的链接地址、网页标题以及部分说明文字,将上述信息处理为结构化数据后存放到相应的数据库中。再通过对不同独立成员搜索引擎所获取的舆情信息的链接地址和网页标题等信息的对比和有效性检测来实现结果的筛选和去重,然后将最终结果提交给Nutch的文档分析与分词模块,建立索引。

2.3 文档分析与中文分词

信息检索的基础是文档分析,而文档分析在很大程度上依赖于分词模块对语言的处理。文档分析是信息采集完成后的首要任务,Nutch中的文本分析模块能够完成对各异构文件中结构化标记语言的处理,得到纯文本文件。Nutch自带的CJK分词模块在中文分词的效率和准确度上不能满足实际需要。为此,在对比了JE分词、Paoding分词和ICTCLAS分词等多款中文分词模块后,Paoding分词由于其开源性和良好的分词效果被本系统采用,并通过Nutch的插件机制集成到系统当中。其原理是Nutch中的抽象类Analyzer类实现了配置和插入中文分词模块的接口,该抽象类中定义了一个公有的抽象方法tokenStream(String fieldname,Reader reader)返回的类型是TokenStream。Paoding分词的分词类返回类型也是TokenStream,故只需将参数fieldName和reader作为Paoding分词的输入参数并将其结果返回给Analyzer类即可。

2.4 信息索引与检索

系统为校园网和互联网内的多个异构数据源分别建立了各自的索引文件,为有效整合索引文件,并将其作为统一的索引库提供给舆情分析与预警模块,需要对索引文件进行优化。索引优化其实是将多个索引文件合并成单个文件的过程,目的是减少索引文件的数量,并且能在搜索时减少读取索引文件的时间。Nutch中的IndexWrite类提供了optimize方法实现该优化操作。索引优化完成后,利用Nutch中的MultiSearcher类可实现对优化后索引的统一检索功能,检索结果会以一种指定的顺序合并起来。针对高校网络舆情信息的特点,综合考虑信息相关度,时效性和访问量等因素后,系统采用了自定义的排序机制,Lucene的文本相关度公式作为信息检索的主要排序依据,辅助以信息时间和访问次数作为重要的排序因子,系统通过Lucene的激励因子boost值来改变文档得分,从而调整文档的出现顺序。

2.5 信息预警

系统采用关键词特征库匹配与机器学习算法相结合的方式对舆情信息进行预警。在对特征库内的关键词进行组合后,对舆情信息索引库进行检索,获取与之相关的信息,再通过与数据库中历史记录的比对得到最新发现的舆情信息。对新发现的舆情信息通过聚类算法对信息进行分类,从而获得舆情信息的分析结果;系统提供了良好的人机交互接口与信息展示界面,预警信息通过短信接口发送给网络舆情监测人员,做到舆情信息的及时发现、快速预警。

3 应对机制研究

高校网络舆情除了要依靠技术手段进行防范与监测外,还要构建合理的网络舆情应急响应组织的架构。网络舆情突发性强、传播速度快,因此高校必须整合各部门资源,成立专门的网络舆情应急响应小组,其组织结构图如图2所示,由校领导直接担任组长,以党委宣传部为核心,校办、学工部和网络中心为重要组成成员,其他部门密切配合,建立起一支高效的网络舆情应急响应队伍。网络舆情事件一旦发生,应立即启动应急预案,预案应包括信息收集、分析应对、部门联动和引导反馈四个环节。各部门由网络舆情应急响应小组统一领导,预案中的各环节可同时启动,要实现技术手段与思想教育工作并重,防止事态扩大,力争快速及时的化解舆情危机。

图2 网络舆情应急响应小组组织结构图

4 结束语

通过对高校网络舆情监测系统的研究,实现了基于Nutch与元搜索引擎技术的高校网络舆情监测系统,解决了多数据源、异构信息检索的难点;引入元搜索引擎技术,完成与源搜索引擎的对接,达到了较高的查全率;采用关键词、敏感词特征库匹配与机器学习算法相结合的方式对采集信息进行分析处理,提高了系统的准确率,最终实现了高校网络舆情信息的早发现,早预警,从而弥补了高校网络舆情监测技术手段上的不足;通过对网络舆情的自动采集、分析与预警替代了人工操作,提高了工作效率,并且能够对舆情信息进行快速、准确的发现。目前该系统依靠关键词匹配的方式进行舆情信息发现,并用聚类算法对发现的舆情信息进行分类,该方法对已知关键词的舆情信息能够取得较好的效果,但对未知关键词的信息还无法实现有效监测,今后将进一步加强对这方面的研究。通过高校网络舆情监测系统的部署和应对机制的构建,高校能够从整体上实现对网络舆情隐患的及早发现、快速响应、应急控制、主动疏导和反馈调整,促进了高校的稳定与和谐发展。

参考文献:

[1] 罗刚.解密搜索引擎技术实战Lucene &Java精华版[M].电子工业出

版社,2014.

[2] 王雪松.Lucene+Nutch搜索引擎[M].人民邮电出版社,2008.

[3] 邱哲,符滔滔,王雪松.开发自己的搜索引擎Lucene+Heritrix[M].人民

邮电出版社,2010.

[4] 费洪晓,莫天池,秦启飞.社交网络相关机制应用于搜索引擎的研究

综述[J].计算技术与自动化,2014.1:1-9

[5] 董坚峰.基于Web挖掘的突发事件网络舆情预警研究[J]. 现代情报,

2014.2:43-51

[6] 戴维民,刘轶.我国网络舆情信息工作现状及对策思考[J]. 图书情报

工作,2014.1:24-29

[7] 朴辰熙.元搜索引擎的原理与革新[J].电子技术与软件工程,

2013.23:34-34

[8] 李俊俊.中国高校网络舆情探究[J].广西民族师范学院学报,2014.1:

网络舆情监测系统范文第8篇

【 关键词 】 Solr平台;舆情;监测系统

1 引言

近年来,全国各地环境污染事件频繁发生,当这些污染事件发生时,民众会在很短时间内通过微博、论坛等网络平台相关消息、描述事件发生状况、评论政府应对措施与各项反应,需要注意的是,这些舆情信息在网络上的传播,会对普通民众的群体心理造成重大影响,如果处理不当还会对环境污染防治工作带来阻力,甚至发生重大公共安全。因此,需要设计并实现面向环境污染舆情的网络舆情话题监测技术,以实现对环保类舆情信息的及时发现,为政务信息公开和网络舆论回应提供技术支持。

环保类舆情话题主要是民众对身边生活环境问题的描述、建议、举报和控诉等的话题,比如工厂偷排污水、工地夜间施工、空气污染严重等。这类话题可由相关关键词的与或关系组合予以监测,例如水污染的话题可以采用“废水、污水、黑水”等关键词匹配。但在实际实现时,每类环保类话题的关键词数量都较多,关键词之间的与或关系描述比较复杂,采用传统的数据库结合文本关键词匹配的技术会遇到处理速度慢、与或等复杂逻辑匹配实现难度大等难题。

针对这些问题,本文提出采用Solr平台设计并实现环境污染网络舆情监测系统。Solr是由Apache基金会设计开发的基于Lucene的文本检索平台,利用Solr的索引和检索功能够快速查找文本,并可实现较为复杂的查询逻辑。通过实际数据的实验验证,本文所述技术具有执行速度快、复杂匹配逻辑实现难度小等优点。

2 Solr平台简介

2.1 Solr概述

Solr是一个基于Lucene的企业级全文搜索平台,它支持层面搜索、高亮显示和多种格式数据输出等功能。2006 年,Apache Software Foundation 在Lucene项目的支持下设计实现了Solr平台,并使Solr成为Apache的孵化器项目。在整个项目孵化期间,Solr 稳步地积累各种特性并吸引了一个稳定的用户群体、贡献者和提交人,并于2007年1月正式成为Apache的子项目。

Solr具备高效灵活的缓存查询、强大的全文检索、垂直搜索、相似文献查找、配置灵活、支持多种客户端语言、索引复制、高亮显示搜索结果、日志记录、可扩展的插件体系等功能。

2.2 Solr体系架构

Solr作为一个完整的全文检索平台,具有三层体系架构。

1) 底层是全文检索工具Lucene,主要为文件建立索引、提供文本分析接口和实现高效查询。此外,底层的索引复制模块是一个独立的模块,主要用于支持分布式的索引和检索。

2) 中间层是Solr的核心层,主要包括索引处理部件和配置文件。最主要的配置文件是Solrconfig.xml和Schema.xml。Solrconfig.xml从整体上对系统进行了配置,例如索引的存放路径、字段的最大长度、写锁的超时时间、锁类型、是否压缩索引、内存索引缓冲区大小、合并因子、删除策略、自动提交策略、缓存设置等。Schema.xml主要是对索引的配置,例如分词器、字段名称、索引方法、存储方式、分词方式、唯一标识字段等。索引处理部件是在系统主动或被动的接受特定数据,按照配置文件转化成索引后用来进行实际操作的部件,例如,进行搜索、相似文献查找、拼写检查、分面检索等。

3) 上层是HTTP请求接受、处理和请求结果返回层。HTTP请求处理器根据接受到的不同请求,确定要使用的SolrRequestHandler,然后通过Solr核心层处理请求,并以XML、JSON等数据格式返回请求结果。

3 环保类舆情话题监测系统主要模块

本文所实现的环保类舆情话题监测系统的主要模块包括三个部分,分别是中文分词、创建索引和话题监测。

3.1 中文分词

中文自动分词是建立索引库的前提。中文文本中词与词之间没有天然的分隔符,这就要求在对中文文本进行分析前,需要先将整句切割成小的词汇单元,才能将文本划分为特征项并添加进索引库。在全文检索系统中,中文分词系统的速度直接影响到系统建立索引和检索文档的效率,所以需要从众多可用的分词工具包中选择符合本系统需求的中文分词系统。

目前常用的分词工具包有StandardAnalyzer、ChineseAnalyzer、CJKAnalyzer、ICTCLAS和IKAnalyzer,其中IKAnalyzer的分词方式为正向粗粒度词典匹配或正向细粒度词典匹配,由使用者根据需要指定,当遇到未被词典收录的词语时则使用二元分词方式切分。IKAnalyzer的自定义词典功能比较强大,既可以通过词典文件预先批量添加词语,也可以通过调用API的方式实时添加;同时,IKAnalyzer的分词速度和分词准确率也比较理想,可以满足本系统开发的需求。通过对分词效果、分词速度、词典的扩展性、开发难度等方面进行综合考虑,最终选择IKAnalyzer作为本系统的分词器。

3.2 创建文本索引

本系统是通过Python脚本语言来实现Solr索引创建的。首先连接Solr,然后用Solr的Add命令从数据库里将上一次索引时间之后所有新增加的舆情数据添加进Solr。接着执行Commit命令以提交任务。那么,Solr就会自动完成对新提交的文本数据创建索引。

3.3 话题监测

索引建立之后可以根据每类话题关键词的逻辑匹配规则在Solr中进行话题监测处理。

在话题监测前,首先判断这个话题是否已经基于关键词查询过,如果查询过,则接着在上次查询时间之后新增的索引文本上查询,否则查询所有文本。

在话题查询时,根据Solr的查询命令并结合实际需求构造一个查询条件,如按关键词和索引时间范围构造的查询条件为:query = "(%s) AND index_time:[%d TO *]" % (keywords, secs),然后根据该查询条件实现Solr上相关话题文本监测。

4 实验结果与分析

4.1 评价指标

实验结果评价指标为准确率(Precision)、召回率(Recall)和F1值。准确率指标代表的是识别准确性,召回率代表的是方法判断结果的查全率。理想的情况是准确率和召回率都很高,但在实际情况中,两个指标很难同时被提高,提高准确率往往以降低召回率为代价,而提高召回率往往也要牺牲准确率,因此设计方法时往往根据实际需要重点关注其中一项指标。在本系统中,环保类话题识别与监测的主要作用是找到与人工设置的话题关键词相匹配的文本,所以本系统在保证一定召回率的前提下更强调准确率指标。

4.2 实验分析

通过人工方式设置了3个话题类型,实验数据集为从网络舆情源数据中随机获取的文本20000篇,其中包含3类环保类舆情话题文本共3272篇,作为背景噪声的无关文本16728篇。话题的相关情况如表1所示,采用本文所述技术的实验结果如表2所示,在DELL R420服务器上执行话题监测处理时间仅为0.27秒。

实验结果表明,基于Solr平台的环境污染舆情话题监测系统能够比较有效的发现网络舆情数据源中与设定话题相关的发帖文本。需要注意的是话题识别与监测方法的效果受话题关键词的影响比较大,所以关键词的设置既要求准确又要求全面,根据环保舆情监控的地域因素,还要考虑当地人对某件事物的俗称。

5 结束语

本文通过研究建立基于Solr平台的环境污染舆情话题监测系统,认为建立中文分词、创建索引和话题监测三个主要模块能够比较有效的发现网络舆情数据源中与设定话题相关的发帖文本,实验结果表明本文所述系统可有效满足环保相关部门对环境污染网络舆情话题监测的需求。

参考文献

[1] 黄翼彪.实现Lucene接口的中文分词器的比较研究[J].科技信息,2012,(12):246-247.

[2] 姚晓娜,祝忠明.基于分面搜索引擎Solr的机构知识库访问统计[J].中国科学院国家科学图书馆兰州分馆,2011,209(8):37-40.

[3] Apache Solr官网.http:///solr/.

[4] 薛峰,周亚东,高峰等.一种突发性热点话题在线发现与跟踪方法[M].西安交通大学学报,2011,45(12):64-69.

[5] MOHD M,CRESTANI F,RUTHVEN I.Design of an interface for interactive topic detection and tracking[C]//Flexible Query Answering Systems 8th International Conference on.Berlin,German:Springer,2009:227-238.

作者简介:

网络舆情监测系统范文第9篇

关键词:网络舆情监测;关键词;智能追踪

中图分类号:TP393.09

1 舆情采集与分析

1.1 信息采集

根据互联网中热点分布特征,在进行信息采集时,系统针对时效性强的主流媒体网站进行信息采集,信息来源可靠性高、实时性好,信息采集量小,分析处理速度快,热点分析速度快、准确率高,预警及时。合理利用主流媒体网站的搜索引擎,进行基于主题的信息采集。由于这些网站的分词技术参差不齐,为了保证信息采集的准确性和实时性,采用了二次搜索的方案。在基于主题的信息采集之前,对要采集的主题进行分词,根据分词的结果,先按照“大范围”的关键词进行采集并存储,对采集的结果再按照“小范围”的关键词进一步搜索,这样采集的信息准确率高。

1.2 信息预处理

网页上面除了系统所需要的舆情信息之外还包括很多其他信息,如:Flash、视频、图片、广告和冗余链接等。在过滤掉这些垃圾信息之后,还需要对相同话题的舆情信息进行话题合并,也就是去重。并根据系统的规范将舆情统一存储为下一步数据分析挖掘打下基础。信息预处理主要包包括:主题关键字抽取、正文关键信息提取、自动摘要、超链接分析、URL去重、垃圾信息过滤等工作。

1.3 舆情分析

(1)舆情自动分类。舆情信息的自动分类也就是文本分类。就是在指定的分类模型下,让计算机自动识别舆情信息的内容并划分舆情类别的过程。舆情自动分类首先设置类别关键词,为每一个关键词都设置一个相应的权值。对采集到的舆情信息进行最基础的分析扫描。分别对标题和内容进行扫描,统计分析的关键词出现的次数,最后根据类别关键字模型对每个关键字进行权值统计。权值超过一定分值的将其自动划入对应的分类。

(2)舆情相似性排重。根据舆情信息主要内容的相似度来决定是否为重,比其他方法有更强的实用性和准确性。通过分词技术对舆情关键字进行比较计算,得出舆情的相似度,并设置相似度高阀值,超过阀值的确认为重,与原来的主题进行合并,且无需再进行任何操作。合并后再加入人工再确认环节,以确保排重万无一失。

(3)倾向性分析技术。倾向性分析就是用程序根据舆情中的关键字提炼出信息所要表达的意图。首先根据中文的特点,设置一个语义库。再将舆情信息中包含特征关键词与语义库进行对比进行语义分析,最后根据结果决定舆情事件的倾向性。对倾向性分析可以明确者所要表达的观点和立场。

2 舆情关键词提取

2.1 单文档关键词提取

提取关键词之前,首先对文档进行分词处理,然后利用停用词表和过滤规则对分词结果进行过滤,停用词表中包括助词、介词、连词等虚词以及词语长度为1的无实际含义的词。对于明显的无用词,如数词与量词、无意义的前后缀等,可设计相应的过滤功能对无用词进行过滤。然后对过滤后的分词结果进行权值计算,得到每个词的权重。

2.2 关键词权值计算

文本关键词提取较多基于权值向量生成方法,其中最常用的就是TFIDF算法,TFIDF的主要思想是如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力(IDF值大),适合用来分类。但是每个词除了包括TF和IDF外,还有词性、词在文档位置信息等有效信息。

2.3 文档集热点关键词提取

文档集的热点关键词应该是某些文档的关键词,所以以所有文档关键词集建立候选关键词集,进行特征抽取,获得文档集关键词。如果一个关键词出现的次数越多,就证明其受热点关注的程度就越高;IDF值越大,说明词的区分能力强,更符合主题的特点。

3 关键词的智能追踪

3.1 话题聚类

考虑到不同网站的权威性、影响力和热点时效性等特点,对采集到的话题以其来源权重为第一要素,发表时间为第二要素,以权重和时间降序排序。

首先默认一个关键词代表一个热点话题,然后对这些热点话题进行凝聚聚类。以关键词集中的第一个关键词作为第一个热点话题线索,以此关键词查找文章关键词进行聚类,以搜到第一篇文档默认作为热点话题,然后对其余的页面文本进行聚类,采用夹角余弦值计算本话题与已有热点话题的相似度,若相似度超过阈值P则将当前话题合并到已有话题中,若相似度小于阈值P则将当前话题当作一个新的热点话题。然后以关键词集中第二个关键词对剩余页面进行聚类。算法迭代执行,直到待分析的页面处理完或达到设定的话题个数为止。

3.2 智能追踪模型

参考文献:

[1]李恒训,张华平,秦鹏.基于主题词的网络热点话题发现[C].第五届全国信息检索学术会议论文集,北京,2009:134-143.

[2]张寿华,刘振鹏.网络舆情热点话题聚类方法研究[J].小型微型计算机系统,2013(3):18-19.

作者简介:张伟佳(1982-),女,硕士,讲师,研究方向:计算机技术。

网络舆情监测系统范文第10篇

关键词:信息安全处置;舆情处置;系统平台;关键词;爬虫

1信息安全监控处置现状

目前,网络上不良信息以及舆情信息的载体多种多样,且数据量大。群众上网的频率和规模,以及网络平台上网络信息的飞速增加,可能会使得舆论传播变得大众化、无序化和分散化。面对网络上大量的舆情信息及不良信息,需要用技术上的网络分析和监控,代替大量繁琐的人工操作,协助相应部门机构及时发现网络上不良信息、敏感链接,了解网络舆情动态等问题,并需要对不良信息链接的封堵整改,对负面的舆情信息进行记录追踪预警,做到能够及时纠正网络上不良信息带来的危害影响,有效保障网络环境的健康可靠。目前对于网络信息安全的监控和处置主要分为舆情处理以及不良信息处理两个板块,对应的也是两个分开的系统:舆情监测系统、互联网信息安全处置系统平台,这两个系统都是运用了爬虫技术,但面向的处理方向不同,关键词的设置不一致,着重的应用范围也不一样。舆情偏向微博、论坛、报道三个数据板块,而不良信息处理侧重于网页内容的爬取。除此之外,对应公司在网络信息安全方面的要求,还应该对微信认证公众号以及公司指定APP上发送的文字、图片甚至视频内容进行采集检测。目前来看各系统以及工作模块通过内容的划分下,从系统平台的不互通到检测数据平台侧重不同,各个能力的运用并没有发挥到最大化,下面我们将通过分析研究,试着将能力运用最大化。

2现有信息安全监测系统功能分析

当前现有的系统能力包含:互联网信息安全处置系统、舆情监测系统、鹰眼系统、一些监测指定APP和公众号的小程序。

2.1互联网信息安全处置系统

互联网信息安全处置系统是集不良信息处置、域名备案处置、域名备案查询等功能于一体,对违规网页或涵盖不良信息网页进行处置的综合运行平台。平台根据预设的关键词库,通过网络爬虫的方法对运营商接入网站进行深层次的网络数据爬取,筛选出不违规网站:包含不良信息、未备案等。再根据人工的进一步复核确认,最后通知用户整改或者进行封堵,实现对于网络活跃网站数据的监控和对不良信息网站的严查严控。平台首页如图1所示。首页显示菜单栏、信息公告栏、常用资料下载、法律法规资料下载。可以通过爬虫任务管理,实现任务的添加、修改、删除、追溯等来实现对爬虫的更改,包括对关键词的扩充或精确、对新网站的爬取深度等。从而进一步人工审核之后,下发相应工单进行处理,完成对相关不良信息的处置。还可进一步跟踪追溯,用以提高一些工作的效率。

2.2舆情监测系统

舆情监测系统主要是为了减少和避免特定主体负面新闻报道、群体性投诉事件等给企业造成的不良影响,对此类情况及时发现和上报、有效监控和响应的系统,针对突发舆情信息和应急或专项舆情信息,采用技术手段,对信息进行收集、汇总和上报;对舆情事态发展进行跟踪、上报。主要针对的是互联网上出现的主要针对特定主体的各类业务产品及服务或企业形象的报道、评论和投诉。经过系统程序的筛查后,进行人工复核,最终汇总上报。舆情监测工作一般按照数据类型可分为:报道类、微博类、论坛类、微信类。目前对于舆情监测日常工作主要使用了两个系统,分别是舆情监测系统和鹰眼系统。舆情监测系统对舆情处理:分为微博、论坛、报道三大块;该栏目也是将系统爬虫根据设定好的关键词所抓取来的数据根据三大板块分类后陈列出来。系统模块如图2所示。图2舆情监测系统板块示意图其中,舆情情况:是将舆情处理栏目内所展示的数据经过处理后,存档保存,进行内检索的栏目;舆情统计:是将系统内已处理过并存档后,进行统计及按要求生成报表的栏目;系统设置:是系统管理员进行账号和密码,以及后端修改操作的栏目。此外还需要通过人工在百度、搜狗、360等较大的搜索引擎上进行搜索,进行有关数据的筛选。

2.3APP公众号监测平台

作为对接入网站,公众号,APP等的检测系统,有内容采集、内容分析、统一管理系统平台。内容采集主要采集网站、APP、公众号推送的文本、图片、视频等内容信息。内容分析系统通过关键词匹配、自然文本语言处理、智能图像识别、图像内容分析匹配、视频识别分析匹配等技术,高效识别色情、、广告、涉政、等多类垃圾有害文字,精准过滤推广、涉黄、涉赌、、涉政等违规图片或视频。监测系统平台还可将监测内容分为文本区、图片区等,对数据进行分区处理,以此能够更高效且清晰的对监测内容进行查看和管理。系统对APP进行定期的安全检测,若发现有包含违规信息的APP,系统后台预警并对违规违法内容取证存留,通过人工审核之后,发送相关违规信息给APP拥有单位。并通过搭建成熟内容安全检测系统平台,接入APP、公众号、网站至检测系统,实现针对文本、图片和视频等内容的违法违规安全检测,精准过滤涉黄、涉赌、推广、、涉政和其他个性化定义的违规图片的检测。实现高自动化的检测,将数据整合输出报告,规避内容风险,及时遏制内容违法违规风险,提高APP审核效率。对于网页页面,包括文本、图片采集由网页扫描任务调度、网页内容抓取等功能;对于公众号通过Web自动化工具操作Chrome浏览器自动采集获取微信公众号的内容;对于指定APP类,则是通过安卓模拟器运行APP软件自动采集获取APP内容。

3系统能力提升设想

根据以上的分析说明,可以看出不同的系统能力各有侧重的方向,能力优势也各有不同,对于已掌握的系统和能力,通过合理的分析与构想,将每个系统的能力运用范围扩展,融合各个系统优势,能力互补完善,以下是对于各系统能力可以扩展或吸收部分的分析构想。

3.1互联网信息安全处置系统

对于网络不良信息方面系统网络爬虫的爬取,目主要是对网站数据的爬取,而当前用户非常活跃的各类社交软件、论坛报道等渠道,没有很全面的涉及。互联网信息安全处置系统从目前关键词对不良信息的覆盖以及对网站的爬取范围来看,则具有成熟的能力。一方面可以将这种成熟的能力,通过扩展关键词库,或监测更多非运营商自主拨测接入的网站,但和运营商有着很大关联的其他网站等方法,来提升其他方面对于网站数据的监测。另一方面通过其他系统拥有的能力扩展,使对于不良信息的处理,不局限于网站数据,能够对活跃在网络的各种应用都能进行检测监控。

3.2舆情监测系统

通过对比分析各系统,可以看出对于网络舆情方面数据,主要依赖的两个系统,舆情数据目前最有效可靠的是舆情监测系统中对与微博板块数据的监测,对论坛博客讨论数据通过鹰眼系统生成导出。而对于各网站舆情的监控,当前更依赖于人工检索、筛选及分类。通过鹰眼系统所得数据加人工检索所得数据,导入舆情监测系统后,使数据源较为完整。即对于网站内容的检索,缺乏一个完善成熟的爬取能力。一方面可以将舆情系统对于微博舆情数据的监测情况进行分析,监测各微博、微信、公众号等社交媒体中公司官方账号发出的文章数据,避免存在有害信息的情况。另一方面通过其他系统拥有的能力扩展,完善对于舆情处理的数据源,减轻人工工作负担,更精确全面。

3.3APP公众号监测平台

此类系统软件对于更侧重于对指定接入APP以及微信公众号内容数据的监测,并没有前文所提及的两个系统的深度和广度,对于大量的数据接入爬取和比对分析,存在运算能力上的不足。但此类涉及APP内容的爬取比对,以及其中对于图片视频的分析能力,可以扩展对不良信息和舆情监控的数据范围,分析扩大分析的数据范围,对于指定账号数据,APP的监控,可以做到文字数据、图片数据、视频数据的覆盖。能够很好将监测对象涉及的数据尽可能全面的覆盖分析。

4统一监测系统架构

为了对网络中的不良信息和舆情信息进行高效的抓取和识别,建立全面完善的不良信息监控系统,综合考虑现有互联网信息安全处置、舆情监测等系统的架构流程能力,系统内的抓取识别检测的技术指标、系统性能、使用范围等,进行统一信息安全监测系统的总体设计。在统一信息安全监测系统设计中,网络上信息数据的采集与处理是重点核心,统一信息安全监测系统架构的总体设计包括从网站、新浪微博、微信公众号、论坛博客以及指定APP等数据源筛选获取数据,对不良信息和网络舆情两个方面的数据分析。根据已有的系统技术,对上述多个系统能力进行参考整合利用,设计系统架构。统一信息安全监测系统的总体架构包括数据的采集、预处理、分析及结果模块。

4.1数据采集

数据采集主要是根据互联网信息安全处置系统中对于网页内容的爬取、舆情监测系统对与微博、搜索引擎、论坛等文本数据内容的获取。网页数据爬虫是系统中适应部门要求特定且高效的爬虫工具,也存在很多发展进步的方向可以探讨。现有的系统主要采取关键词库对比对的方式来定位网络上的不良信息。除了现有的处理外,我们可以进一步扩展目前现有的爬虫能力,不局限运营商现自主拨号接入网站,爬取分析更多的相关网站,设置不同的关键词集,根据不同的数据需求进行不同的采集分析,例爬取相关报道网站对舆情方向的监测。同时利用对指定APP、小程序的爬取和对于图片,视频的数据处理分析能力结合到对网页内容的分析,使得能够尽可能全面且精确得获取数据。

4.2数据预处理

数据是后续处理分析的重要基石,大量爬取的原始数据无法直接使用,需要对数据进行预处理后才能进一步分析。对于数据的清洗、转换、特征提取等都是预处理步骤。数据清洗是对与网页上大量重复或缺失的数据进行去重处理,数据转换是对爬取出的网页数据进行类型的转换处理。针对舆情处理有时不仅需要对数据信息进行关键词的匹配定位,还需要对广泛的数据信息进行简单的筛选判断,去除一些重复性数据,并进行数据转换,特征提取。包括对有害信息的处理,也可以进一步对爬取的数据通过分析对比,而不仅限与有害网页的关键词匹配等。数据预处理还包含对于图片及视频方向的数据分析,会先进行一些视频抽帧以及图片关键信息的提取,以此来降低分析比对的运算量。

4.3分析和结果模块

对于初始比对匹配的数据,还需要进行分析查验,而这一方面现主要通过人工进行审核判断,最终列出处置清单生成报表。出于严谨性考虑,不能完全将机械运算分析代替人脑判断,但可以通过算法算例,进一步分析筛选,减轻人工工作量。并将最终结果生成固定格式的表格,方便后续的处置以及溯源等,形成不良信息的处置闭环。

4.4系统能力扩展

除了将现有能力最大化利用之外,本文还对数据处理模块进行了分析,提出一些可以进一步提升的设想。对数据的分析抓取可以不仅停留在关键词的匹配比对上,针对舆情语义分析以及话题趋势的预测分析,可以使得在大数据的基础上呈现一个较为准确的分析。通过分词模块对文本数据内容进行分词,通过分类或者聚类分析,对爬取出的舆情文本进行关键词提取,对舆情进行文本的情感分析和话题归类,还可进一步对相关话题进行热度统计分析,并提取出关键词句,更利于人工核验时能者迅速掌握舆情内容,也可针对每一个不同的需求进行定制,将关键词库模块化,就可以实现对舆情监测分析的产品化。除此之外还有很多技术上能够分析进步的方面,如爬虫爬取模式、匹配精确度、图片深度分析、情感导向分析等方面,这里就不展开设想。建立一个统一的信息安全监测系统,再逐步完善提升能力。

5结束语

本文结合了相关背景要求,结合需求分析,通过分析现有对网络信息各监测的系统平台能力优势及侧重方面,将这些系统平台的能力相互融合扩展,业务范围扩大,形成一个功能全面,数据完善,且又具有针对性的一个综合处理系统平台。再逐步完善能力,对于现在网络发展带来的重大挑战做到主动适应。

参考文献:

[1]郑燕.基于增量学习的自适应话题追踪技术研究[D].山东师范大学,2013.

[2]胡传志,程显毅,曹小峰.网络敏感信息自适应多重过滤模型研究[J].计算机科学,2015,42(1):272-275.

[3]李可可.基于SVM的微博情感倾向性分析研究[D].中原工学院,2014.

[4]中国信息通信研究院安全研究所.人工智能安全白皮书(2018)[R].2018.

[5]宋蕾,马春光,段广晗.机器学习安全及隐私保护研究进展[J].网络与信息安全学报,2018(8).

[6]中国人工智能产业发展联盟.电信网络人工智能应用白皮书(2018)[R].2018.

[7]CNNIC.CNNIC第45次《中国互联网络发展状况统计报告》[OL].202004/t20200427_70973.htm.

[8]丁杰,徐俊刚.IPSMS:一个网络舆情监控系统的设计与实现[J].计算机应用与软件,2010(4):188-190.

[9]白鹤,汤迪斌,王劲林.分布式多主题网络爬虫系统的研究与实现[J].计算机工程,2009(19):13-16.

[10]周义棋,田向亮,钟茂华.基于微博网络爬虫的巴黎圣母院大火舆情分析[J].武汉理工大学学报:信息与管理工程版,2019(5):461-466.

上一篇:网络公司范文 下一篇:网络打印机范文

友情链接