浅析舆情监测系统的设计和搭建

时间:2022-10-05 02:31:48

浅析舆情监测系统的设计和搭建

【摘要】近年来随着网络舆情事件的频繁发生,舆情监测系统的重要性得到了社会各界的关注,如何设计和搭建适合客户的舆情监测系统成为舆情研究的重点,本文将在舆情监测系统设计架构和舆情监测系统技术难点等问题上给读者提供一些建议。

【关键词】舆情监测系统,分词技术,全文检索引擎,热点预判

1 绪论

1.1什么是舆情监测系统。舆情是“舆论情况”的简称,是指在一定的社会空间内,围绕中介性社会事件的发生、发展和变化,作为主体的民众对作为客体的社会管理者及其政治取向产生和持有的社会政治态度。它是较多群众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等等表现的总和。出现了社会舆情相关行政部门和新闻媒体等机构想第一时间的获得舆情信息就造就了舆情监测系统的产生。舆情监测系统是指通过相关的专业舆情软件按照一定的规则和算法将互联网上繁杂的数据信息当中用户所关注的信息抓取出来,并通过分析过滤等方式,最终呈现出与需求相匹配的舆情信息,并以舆情报告形式呈现。

1.2舆情监测系统现状。我国关于舆情监测系统的研究始于2005年,经过10年的发展舆情监测系统在功能上已经发展的相当完善,通过舆情服务对象舆情监测系统大体可以分为:以人民网为代表的综合舆情监测系统、以军犬、红麦等商业系统提供商为代表的特定行业舆情监测系统、以地方综合网站为代表的区域舆情监测系统。近两三年地方网站纷纷加大了舆情监测的投入,在舆情监测系统上又有了一定的创新,逐步成为舆情监测的新生力量,得到广大区域客户的欢迎。

2系统设计思路

2.1系统架构

2.2技术选型。为了保证舆情监测系统的高效、安全和跨平台等特性,在技术选型上决定所有服务器使用Linux系统,结构上采用多层B/S结构,在开发语言上选择JavaEE体系结构和MVC三层设计模式。

2.3系统构成。舆情监测系统从信息采集到生成最终舆情报告经过五个阶段:信息采集、信息加工、舆情分析、舆情、舆情跟踪舆情报告,其中每个阶段又分为五个独立子系统进行处理。

2.4关键技术

2.4.1敏感分析技术。针对互联网上敏感词的多样性,我们对于采集来的信息进行预加工,将信息按照时间、地点、事件等条件进行分类,同时我们将用户输入的敏感词逻辑关系表达式进行分词,形成模糊查询条件,将符合模糊条件的信息导入备选库,在形成检索的敏感词中引入同义词、反义词、拼音、字形等扩充进一步完善查询条件,再从备选库中将符合条件的信息展示出来。

但是在现实操作中舆情信息者为了避免计算机自动识别和关键词屏蔽,往往会将敏感词进行修饰,其中主要的干扰手段有:敏感词之间加入空格或者特殊字符;使用会意字、同音字或拼音等代替敏感词中的部分文字;使用图片、图形等代替敏感词中部分文字。针对这些变形我们可以通过分词技术、OCR识别技术、正则表达式等方式去除干扰。

同时为了增加敏感词检索效率,我们会将用户输入的敏感词逻辑关系表达式识别成一个个的关键词进行索引。信息预加工的时候如果信息敏感词可以在索引中找到关键词直接归类,如不在索引中找到将信息导入备选库,系统每天零点将备选库中信息进行二次计算避免信息的遗漏。

2.4.2热点预判技术。互联网每天新增的信息数量庞大、内容覆盖领域广泛。很难通过原有的跟踪技术分析热点事件。但我们根据网络传播的规律可以得到从信息产生到成为热点大体需要1-3个小时的发酵期,在这几个小时内信息如果没有引起权威渠道(重点网站、社区或知名自媒体)的关注,信息将会进入沉淀期,沉淀期的信息要重新成为热点需要具备以下条件:1、通过同型或异型热点话题诱发关注;2、权威渠道的再次关注。如果发酵期被权威渠道关注将进入关注期,信息将会出现第一个报道峰值,此阶段大体时间0.5-2小时,具体时间根据自媒体推广时间和搜索引擎抓取时间而定。之后会进入传播期,传播期的时间不好预测有可能是几个小时或者是几天,如在传播期得到网友的关注被广泛转载和推荐将进入消息的井喷期,此时将出现第二个报道峰值,此时的报道将主要是消息的解读、纵深、相关等内容,这样热点正式形成。我们对于热点的预判应该在信息的传播期进行分析,系统采集到信息后两个小时,开始分析信息“每小时热度”(每小时热度是由以下几方面决定的:1、是否是近期热点事件(可以通过百度搜索风云榜查询);2、此事件相关话题的报道数量;3、此事件报道的网页站点的权威度(可以参考百度指数和pr值);4、此事件报道的网页点击量、分享量和评论情况),我们分析5-10小时热度曲线得到信息传播的热力发展情况,如曲线无衰减或较少衰减我们就认定此信息为热点事件。

2.4.3信息排重技术。因为互联网网站数量十分庞大,网站信息同质化情况严重,造成采集来的信息重复度很高,对于舆情分析来说相同内容信息只需要显示一条就可以,所以就产生了信息排重的需求。我们通过信息指纹技术进行信息排重。信息指纹技术在百度百科中的解释是:提取一个信息的特征,通常是一组词或者一组词+权重,然后根据这组词调用特别的算法,例如MD5,将之转化为一组代码,这组代码就成为标识这个信息的指纹。生成信息指纹之前先将采集来的信息去除非特征关键词、连接词、形容词、语气词等干扰关键词,针对每段剩余的关键词生成信息指纹,比对疑似相同内容的文章各段的信息指纹判断内容是否相同。

2.4.4 稿件溯源技术。信息的出口地址对于舆情分析和舆情处理起着十分重要的作用,我们的溯源算法是通过分析信息时间点和信息关系拓扑计算出来的。其中的几个时间点有:网页文件生成时间、网页内容时间、搜索引擎快照时间、搜索引擎收录时间。通过分词技术和信息指纹技术找到信息内容的原始拷贝,结合网页提供的相关参数和上面提到的几个时间我们可以大体的分析出信息的原始出口。

3结论。舆情监测系统的好坏归根到底唯一的标准就是:第一时间将舆情数据展示给客户。不管你的舆情监测系统技术架构有多先进,抓取效率有多么的高,如果不能第一时间将舆情内容提交给用户那都得不到用户的信任,所以舆情监测系统是个不断迭代更新的系统。随着移动互联网、大数据、web3.0的时代到来,市场细分加剧,服务更趋于个性化,舆情监测系统更需要关注整个互联网的发展形势,提供更加专业、细分的舆情信息和舆情处理服务。

上一篇:虚拟化计算机技术的应用 下一篇:高校计算机实验室教学辅助系统的设计与实现