负面消息在网络中的监测与追踪

时间:2022-10-10 09:02:49

负面消息在网络中的监测与追踪

【 摘 要 】 随着互联网的飞速发展,企业的负面新闻事件,一夜传遍网络世界是非常容易的,其危害性也是极其可怕的。企业为了维护自己的形象,会采取一定的措施进行相应的危机公关。本文提出企业可以建立自己的舆情监控系统,通过互联网,随时监控各类行业、专业网站上的信息,对这些信息进行文本倾向性分析,及时发现有利或者不利的信息,尤其是一些不利的负面信息,要进行网页权重、转载、传播途径的追踪。企业公关据此可以及时做出相应的危机处理。

【 关键词 】 负面消息;文本倾向性分析;网页权重;追踪

1 引言

在当今媒体传播手段多样化、网络化的时代,要让一个企业的负面新闻事件,一夜传遍网络世界是非常容易的。一旦您的客户或潜在客户通过搜索引擎(例如百度、谷歌、搜狗)看到那些负面信息,后果将是很严重的。对企业来说,危机一旦爆发,其破坏性的能量就会被迅速释放,并呈快速蔓延之势,如果不能及时控制,危机会急剧恶化,使企业遭受更大损失。 企业为避免或者减轻危机所带来的严重损害和威胁,维护自身的形象,必须有组织、有计划地学习、制定和实施一系列管理措施和应对策略,进行危机公关处理。国际知名网络营销实践者敖春华曾提出四种常见处理方式:①利用搜索引擎压制负面消息;②利用公关删除负面消息来源;③结合事件本身制定根本性解决方案,利用公关彻底平息事件;④舆情监控,第一时间妥善处理相关问题,切掉危机滋生的温床。在当前信息传播方式多样化的今天,企业的危机公关工作也遇到了巨大的挑战,调整、改进危机公关工作,加强危机的事前、事中、事后管理是企业求得生存和发展的必由之路。加强危机事前管理可以及早发现危机因素,并且采用相应的方式消除这些因素,把危机化解在萌芽阶段。这种事先预防,对于企业而言是最经济、最有效的手段。

本文据此对第四种处理方式——舆情监控进行研究,企业需要建立自己的舆情监控系统,通过互联网,随时监控各类行业、专业网站上的信息,对这些信息进行文本倾向性分析,及时发现有利或者不利的信息,尤其是一些不利的负面信息,要进行网页权重、转载、传播途径的追踪。企业公关据此可以及时做出相应的危机处理。

2 网络舆情的获取

企业根据特定需求采用垂直搜索引擎,针对某一特定领域、某一特定人群或某一特定需求搜索相关的有一定价值的信息。具体来说,企业根据特定需求预先录入特定网站( 国内主要网站、论坛、博客)的URL,日常一般设置为本企业的机构名称或部门领导名字即可;在舆情爆发期,可根据舆情主题关键词来进行设置,准确捕获舆情动态信息。采用分布式爬虫系统,主控制器读取URL并分发到不同爬虫机器上,爬虫从JOB队列取出URL,不断从一个站点移动到另一个站点,自动建立索引, 索引进程通过预先设定关键词,利用分词处理技术进行内容分析并建立索引。(索引通常采用开源程序Lucene),并加入到网页数据库中.网络爬虫进入某个超级文本时,它利用HTML语言的标记结构来搜索信息及获取指向其他超级文本的URL地址,可以完全不依赖用户干预实现网络上的自动“爬行”和搜索。网络爬虫在搜索时往往采用一定的搜索策略,譬如广度优先搜索策略、深度优先搜索策略、聚焦搜索、基于内容评价的搜索策略等,企业可以根据监控重点采取不同的策略。

3 对获取的网页进行文本观点倾向性分析

文本观点倾向性分析是网络舆情分析的核心之一。目前,对于观点倾向性分析方法而言,英文已经有较好的研究基础,而由于中文与生俱来的特点,在中文上的观点倾向性分析仍需不断深入研究。中文观点倾向性分析研究上普遍采用基于情感词汇语义特性的识别方法来判断文本的观点倾向性,如根据已有的情感词典中词汇的语义倾向对未知词语进行倾向性判断,或者研究者自己构建情感倾向性词库,对未知词进行极性分析;在此基础上,也有研究者进一步提出识别情感词倾向性强度的方法,如采用多种分类方法将文本强度分为几个等级( 常见的强烈反对、一般反对、中立、一般赞成、强烈赞成等五个类别)等方法。

我们可以采用中科院的ICTCLAS分词系统,ICTCLAS的分词正确率高达97.58%(最近的973专家组评测结果),基于角色标注的未登录词识别能取得高于90%召回率,其中中国人名的识别召回率接近98%,分词和词性标注处理速度为543.5KB/s。

该分词系统的主要思想是先通过CHMM(层叠形马尔科夫模型)进行分词,通过分层,既增加了分词的准确性,又保证了分词的效率,共分五层,如图1所示。

基本思路:先进行原子切分,然后在此基础上进行N-最短路径粗切分,找出前N 个最符合的切分结果,生成二元分词表,然后生成分词结果,接着进行词性标注并完成主要分词步骤。

4 文本词权重的计算

对文本进行了倾向性分析后,还应该考虑同类文本词的权重,权重的计算采用TFIDF计算公式。其指导思想是:在一个文本中出现次数越多的单词,在另一个同类文本中出现的次数也会很多,反之亦然。该方法是根据特征词的重要性与特征词的文档内频数成正比,与训练文档中出现该词条的文档频数成反比的原理构造的。常用频率因子和文档集因子的乘积表示:

对于它们的计算方法,目前有很多种,较为常见的公式

其中Yi为页面i的或转发的影响力,PRi为页面i的受关注度,MRti为页面i被转载数,a,b,c,d为待求参数。这里可以考虑一个页面的转载数和影响力的影响程度十分相近,因而近似求和。

我们可以根据以上公式找出网页转载、传播的路径。

6 结束语

对于企业来说,危机与机遇并存,危机的危害性莫过于网络舆论,所以企业要建立自己的网络监控系统,一旦发现危机,可以通过上述方法及公式可以找出负面消息的与传播路径以及网页权重,针对不同的权重,采取不同的危机公关。当然,上述方法中没有考虑负面评价的重复率以及网页非法操作PR值的行为。

参考文献

[1] 孙挺,耿国华,周明全.一种有效的特征权重计算方法[J].郑州大学学报(理学版),2008(12).

[2] 张俐,李星,中文网页自动分类新算法[J].清华大学学报(自然科学版),2000年第40卷1期.

[3] 过仕明.PageRank技术分析及网页重要性的综合评价模型[J]. 吉林大学管理学院,2006(2).

[4] 王来华.舆情研究概论[M].天津:天津社会科学院出版社,2003.

[5] 任伟,无线网络安全问题初探.信息网络安全,2012(1),10-13.

[6] 吕斌斌,包震斌,张明乐.基于SNMP协议的网络拓朴发现算法分析.信息网络安全,2012(1),46-49.

作者简介:

米晓萍(1976-),女,山西平遥人,讲师;主要研究方向:数据库与数据挖掘、物联网。

李雪梅(1962-),女,山西太原人,教授,CCF高级会员(会员号为:E20-0011906s),清华大学访问学者;主要研究方向:数据库与数据挖掘。

上一篇:在网络规划中应用WCDMA关键技术的分析 下一篇:多媒体录播系统在电子政务视频会议扩展应用中...