“网络水军”泛滥与网络舆情监测的完善

时间:2022-05-03 12:42:56

“网络水军”泛滥与网络舆情监测的完善

在“网络水军”操作舆论的背景下,目前的舆情监测机构很难甄别出哪些舆论热点话题是由“网络水军”制造出来的。诸如“贾君鹏”、罗玉凤等事件、人物均为有意炒作策划,是商业味道极浓的他生舆论,可无一例外地成为年度热点事件、人物,并荣登权威部门的舆情监测年度报告。然而这些都是与事实存在模糊关系甚至是与事实不相符的。

网络舆情监测以监测社会民生舆论为主,但“网络水军”往往将商业话题变相说成社会生活话题,以此来吸引眼球。这样,刻意制造的他生舆论就混杂在舆论阵营中,表达了大众的非本意舆论,掩盖了自然形成的社会舆论。如此一来,网络舆情监测统计的舆论数据就会失真,并对学术研究机构和政府造成误导。而所有这些,无疑也会降低网络舆情监测的公信力。

网络舆情监测作为一种严谨的科学体系,可以利用当今先进的计算机与网络技术,通过先期技术处理和后期操作对网络舆情进行追根溯源,通过考量舆论的来源甄别出网络舆论热点的真伪。鉴于当今网络水军广泛存在的现实,笔者提出以下几种方案完善网络舆情监测工作的舆情筛选功能。

1.情感词分析方法

“网络水军”在网上的帖子往往是非理性的、带有强烈感彩的,或是极力美化雇主的产品或服务,或是极力贬低雇主竞争对手的产品或服务,整体上倾向性比较强烈。因此,我们就可以通过对论坛或贴吧用户的帖子的文本分析,主要是对情感词的分析,来判断这个用户是不是“网络水军”,以及他所主导的舆论是不是有意制造的他生舆论。

通过倾向性分析可以明确网络传播者的意图和倾向,通俗地说,文本舆情描述的是文本所传递的情感。对文本舆情进行分析,实际上就是试图根据文本的内容提炼出作者的情感方向。网络文本的倾向性分析就是挖掘网络文本内容蕴涵的各种观点、喜好、态度、情感等非内容或非事实信息。①

此前已有研究制定了一套完整的方法和公式,其基本思路是:首先进行互联网信息采集获得数据,然后通过网页页面分析技术抽取元数据(比如信息者、信息时间、信息来源等)和正文信息,采用机器学习方法对正文信息进行情感分类,判断其为正面信息或为负面信息。经过统计后,在特定的一段时间内,当某人发表的正面或者负面信息比重超过预设阈值时,则认为其为“网络水军”。②

设定特定的时间段,信息者AN篇有关主题P的信息,其中正面信息X篇,负面信息Y篇(X+Y≤N)。设阈值为T(0

那么,信息者A为“网络水军”。

根据最新数据显示,92.3%的网民经常访问的网络社区数量在2个以上,其中27.2%的网民经常访问2个网络社区,29.1%的网民经常访问3个网络社区,经常访问4个以上网络社区的网民达到36%,③网民平均每人使用3.09个网络社区,这里将其简记作3个。那么,在上述公式中,X/Y=3(或Y/X=3),此时的阈值T为0.5。又因为“网络水军”的发帖量远大于一般网民的平均发帖量,所以阈值T应该略大于0.5。

换句话说,在现阶段,当一个发帖人的Q值大于0.5时,我们就可以基本确定这个人是“水军”,进一步确定他所主导的舆论可能是他生舆论;而且Q值越大,这种疑似程度越强。总结起来看,情感词分析方法是判断发帖人个人身份的一种有效途径,在计算机辅助技术的帮助下,将大大提高筛选的效率,其工作流程如图1所示。

图1网络舆情信息文本分析工作流程④

上图中,建立假设和检验假设并不是存在于每一个分析文本中,为可选项目。舆论监测者首先要制定有针对性的研究意图,然后按照统计学原理选择科学合理的样本。定义分析单元就是定义分析样本的每一个元素,再形成分析类目即分析系统,使之适应所提出的问题,同时使所有类目具有互斥性、完备性和信度。最后是通过统计、计算、分析得出结论。

2.相同IP与ID的统计分析

情感词分析可以从个人角度筛选出“网络水军”,对于一个主题帖子是不是“网络水军”所为的考察,我们可以通过对相同IP地址的统计分析来完成。

正如前文所说,“网络水军”在网上发帖时会用很多ID账号,即网友所说的“马甲”,这些ID或网名是不同的,所以单一根据ID无法辨别发帖、回帖是不是少数人所为。

“网络水军”每天长时间挂在网上刷帖,尽管更换不同的ID,但他们的上网IP地址是不变的。那么,通过统计每一个ID发帖时所使用的IP地址,就可以辨别出哪些不同ID发的帖子是出于同一台电脑即同一个人。如果一个论坛里的帖子出现了大量相同的IP地址,或出现在不同论坛里的同一主题的帖子中出现了大量相同IP地址,那么就可以肯定,这个舆论主题是网络水军人为制造出来的。

另外,如果在同一处的同一个ID使用不同的IP,那么说明这可能是同一个人在不同时间发表的言论,或是不同的人使用网络营销公关公司统一发放的“马甲”发表的言论。于是,就可以根据这个ID所使用的IP,继续顺藤摸瓜地找到本论坛中其他ID发表的言论和其他论坛中同一个IP使用的ID发表的言论。这样就形成了一个由IP和ID构成的无尽的关联网络,在这个网络上的每一条帖子都可以确定为是“网络水军”制造的(如图2)。

图2IP、ID关联网络

这种方法同样需要计算机技术的辅助。另外,要根据现实情况制定评价标准和体系,我们不妨统计出“水军”发帖的个数,并求出这些帖子在整个话题帖子中的所占比例,这个比例越高,那么这个舆论热点系炒作所为的疑似程度就越高。还可以根据实际操作中的情况,制定出一个更复杂的评价体系,将每一个指标赋予不同的权重,分别赋值,求出最后的疑似程度值。

3.历时性调研

由于现在“网络水军”和网络营销公关公司的大量涌现,一些企业或团体已经认识到了网络舆论对其生存发展的影响。当一家企业受到网络打手的舆论攻击时,也会自觉进行调查,并尽力澄清。同时,公安机关对于重大舆论事件也会介入,比如伊利―蒙牛“陷害门”。这些调查出的结论都可以成为网络舆情监测辨别舆论真伪的材料。

4.省略/s2009/dcfb/,2011年1月11日

④刘毅:《内容分析法在网络舆情信息分析中的应用》[J],《天津大学学报(社会科学版)》,2006年第7期

(作者单位:中国人民大学新闻学院)

上一篇:谁愿意“被宣传” 下一篇:值得推广使用的中国首部公共外交教科书