基于行为分析的微博信息传播效果

时间:2022-10-22 02:51:16

基于行为分析的微博信息传播效果

摘要:微博的传播效果研究对于提高市场营销效率、加强舆情监控和准确发现热点具有重要作用。针对以前传播效果研究中未考虑用户个体差异的问题,提出一种基于行为分析的微博转发规模和传播深度预测方法。从微博用户自身、用户关系和微博内容3个方面提取9个相关特征,结合逻辑回归(LR)方法提出一种转发行为预测模型,并基于此模型结合信息沿用户传播特点,通过逐级对相邻用户迭代统计分析得到转发规模和传播深度预测方法。在新浪微博数据集上的实验结果表明,所提方法对转发规模和传播深度预测的正确率分别约为87.1%和81.6%,能较好地预测出信息传播效果。

关键词:微博;行为预测;转发规模;传播深度;逻辑回归

中图分类号: TP391

文献标志码:A

Abstract: The research of dissemination effect of microblog message has an important role in improving marketing, strengthening public opinion monitoring and discovering hotspots accurately. Focused on difference between individuals which was not considered previously, this paper proposed a method of predicting scale and depth of retweeting based on behavior analysis. This paper presented a predictive model of retweet behavior with Logistic Regression (LR) algorithm and extracted nine relative features from users, relationship and content. Based on this model, this paper proposed the above predicting method which considered the character of information disseminating along users and iterative statistical analysis of adjacent users step by step. The experimental results on Sina microblog dataset show that the accuracy rate of scale and depth prediction approximates 87.1% and 81.6 respectively, which can predict the dissemination effect well.

Key words: microblog; behavior prediction; retweet scale; diffusion depth; Logistic Regression (LR)

0引言

微博作为一种快速、便捷的信息分享与交互平台,已成为了人们生活中信息交流的重要媒介。微博接入便捷、内容极简,具有原创性、时效性、草根性、随意性和碎片性等特点。近几年微博在全球范围内掀起一股热潮。根据中国互联网络信息中心(China Internet Network Information Center, CNNIC)的报告显示,截止2012年12月底,我国微博用户规模为3.09亿,比2011年底增长了5873万[1]。作为一种新兴的社交媒体,微博不仅是个人自我表达、获取信息的工具,还逐渐发展成为政府、企业、组织用于信息、公关营销的手段。与传统社会媒体相比,其信息传播速度、广度和效率都得到了极大的提高。

从本质上说,微博仍是一种传播媒体,其最终目的是向外界传递消息。因此,研究如何利用微博进行高效的信息传播十分必要。近年来,微博网络中的信息传播研究已逐渐成为国内外学者关注的热点。文献[2]通过分析Twitter的拓扑特征,指出微博是一种新的信息分享媒介。在微博网络中用户的转发行为是信息快速传播的重要因素。文献[3]对Twitter的转发功能作了细致分析,探讨人们如何转发,为什么转发以及转发什么的问题。文献[4]针对用户转发行为预测问题提出一种基于特征加权的预测模型。该模型提取了11个用户特征和11个文本特征,并运用信息增益方法对各个特征进行了权重分析,最后通过支持向量机(Support Vector Machine, SVM)算法训练得到预测模型。文献[5]引入了一种线性阈值模型(Linear Threshold Model, LTM)预测用户转发行为,其基本思想是节点被激活的概率随着周围激活节点个数的增加而增大。文献[6]根据文章内容提取了文章类别、客观程度、提及的人物和地名、文章来源4个特征,通过回归算法得到转发量与该4个特征的关系式,由此预测文章被分享到Twitter后会引起多少转发和点击。文献[7]指出不同的特征对微博转发的影响是有差异的,并在对用户转发数据统计分析基础上建立了一个预测微博所能得到转发总数的模型。文献[8]考虑节点度和传播机制的影响,结合复杂网络和传染病动力学理论,进而建立信息传播模型分析信息传播规律。文献[9-10]利用其他动力学模型对社交网络中的信息传播进行了分析。

综上所述,转发行为在微博信息传播中起着重要作用,而转发规模和传播深度能较好反映出信息传播范围的大小。因此将转发规模和传播深度作为评价微博传播效果好坏的指标。本文从预测用户转发行为的角度出发,分析影响转发行为的特征,并从微博用户自身、用户关系和微博信息3个方面提取了9个特征,再结合逻辑回归(Logistic Regression, LR)方法提出一种转发行为的概率预测模型,在此基础上,沿着用户间连接关系逐级对各个用户的转发行为进行预测,通过迭代统计获得转发用户规模的大小,并利用用户转发概率分析出信息传播深度,该方法对转发规模预测的总体正确率约为87.1%,对传播深度预测的正确率约为81.6%。

1问题描述

微博网络中,用户发表微博后,信息有一定概率被粉丝看到,如果粉丝对该微博内容感兴趣,则有可能会对该微博进行转发,如果对该内容没有兴趣,则上述行为不会发生。因此,信息沿好友关系进行传播。对于微博信息的转发路径,可用图1来表示。

图1中实心用户代表转发用户,空心用户代表非转发用户。为了分析微博的传播效果,需要对3个方面的问题进行研究:1)转发行为的预测(即用户微博后,其粉丝是否会对其进行转发);2)微博转发规模大小(图1中除用户外实心圈的个数);3)微博传播深度(图1中粗箭头的级数)。通过对这三个问题的分析,能有助于深入了解微博网络中的信息传播机制,并在市场营销、舆情管控等应用方面发挥重要作用。

微博消息的转发行为预测是机器学习中典型的二分类问题,通过对历史数据的训练,在此基础上对于用户u新的微博w,得到其粉丝v对该微博的转发分类结果。在消息转发预测中,影响转发的属性特征与转发行为呈现出线性关系[7]。因此本文利用LR模型来完成这个分类过程,并得到每个用户转发行为发生的概率,进而沿着用户连接关系逐级对用户的转发概率计算并判断是否转发,最后通过迭代统计得到转发规模;同时利用用户转发概率的大小分析出消息传播的深度。

5结语

微博的传播效果研究对于市场营销、舆情监控和热点发现等方面具有重要作用。而转发规模和传播深度是衡量微博传播效果的重要指标。本文通过分析影响转发行为的因素,从用户自身、用户关系和微博内容3个角度提取了9个特征,并结合LR算法建立了转发行为预测模型。通过对新浪微博数据的实验表明该方法对转发行为预测的准确率约为88.2%。在此基础上,提出了一种基于转发行为的转发规模和传播深度预测算法,并给出了转发规模和传播深度的评价方法。实验结果表明,该方法对转发规模预测的总体准确率约为87.1%,传播深度预测的正确率约为81.6%,能较客观反映出微博后的后续传播效果。后续将在本文基础上对微博信息传播规律和方式以及传播路径的形成作进一步的研究。

参考文献:

[1]The 31st report of China Internet development statistics [R]. Beijing: China Internet Network Information Center, 2013.(第31次中国互联网络发展状况统计报告[R].北京:中国互联网络信息中心,2013.)

[2]KWAK H, LEE C, PARK H, et al. What is twitter, a social network or a news media? [C]// Proceedings of the 19th International Conference on World Wide Web. New York: ACM Press, 2010: 591-600.

[3]BOYD D, GOLDER S, LOTAN G. Tweet, tweet, retweet: conversational aspects of retweeting on twitter [C]// HICSS 2010: Proceedings of the 43rd Hawaii International Conference on System Sciences. Piscataway: IEEE Press, 2010: 1-10.

[4]ZHANG Y, LU R, YANG Q. Predicting retweeting in microblogs [J]. Journal of Chinese Information Processing, 2012, 26(4): 109-114.(张,路荣,杨青.微博客中转发行为的预测研究[J].中文信息学报,2012,26(4):109-114.)

[5]NARAYANAM R, NARAHARI Y. A shapley valuebased approach to discover influential nodes in social networks [J]. IEEE Transactions on Automation Science and Engineering, 2011, 8(1): 130-147.

[6]BANDARI R, ASUR S, HUBERMAN B A. The pulse of news in social media: forecasting popularity [C]// ICWSM 2012: Proceedings of the Sixth International AAAI Conference on Weblogs and Social Media. Menlo Park: AAAI Press, 2012: 26-33.

[7]SUH B, HONG L, PIROLLI P, et al. Want to be retweeted? large scale analytics on factors impacting retweet in twitter network [C]// Proceedings of the 2010 IEEE Second International Conference on Social Computing. Piscataway: IEEE Press, 2010: 177-184.

[8]ZHANG Y, LIU Y, ZHANG H, et al. The research of information dissemination model on online social network [J]. Acta Physica Sinica, 2011, 60(5): 60-66.(张彦超,刘云,张海峰,等.基于在线社交网络的信息传播模型[J].物理学报,2011,60(5):60-66.)

[9]LAHIRI M, CEBRIAN M. The genetic algorithm as a general diffusion model for social networks [C]// Proceedings of the 24th AAAI Conference on Artificial Intelligence. Menlo Park: AAAI Press, 2010: 494-499.

[10]ZHAO L, YUAN R, GUAN X, et al. Bursty propagation model for incidental events in blog networks [J]. Journal of Software, 2009, 20(5): 1384-1392.(赵丽,袁睿翕,管晓宏,等.博客网络中具有突发性的话题传播模型[J].软件学报,2009,20(5):1384-1392.)

[11]SHI C, ZHANG M. Analysis of logistic regression models [J]. Computer Aided Engineering, 2005, 14(3): 74-78.(施朝健,张明铭.Logistic回归模型分析[J].计算机辅助工程,2005,14(3):74-78.)

[12]CHA M, HADDADI H, BENEVENUTO F, et al. Measuring user influence in twitter: the million follower fallacy [C]// ICWSM 2012: Proceedings of the Sixth International AAAI Conference on Weblogs and Social Media. Menlo Park: AAAI Press, 2010: 10-17.

[13]ZHANG Y, ZHANG H, ZHANG W. Quick ranking algorithm for network user based on power law distribution [J]. Journal of Chinese Information Processing, 2012, 26(4): 122-128.(张,张宏莉,张伟哲.基于幂律分布的网络用户快速排序算法[J].中文信息学报,2012,26(4):122-128.)

[14]RICHARDSON M, DOMINGOS P. Combining link and content information in Web search [M]// Web dynamics: adapting to change in content, size, topology and use. Berlin: Springer, 2004: 179-193.

[15]LIU Q, ZHANG H, BAI S. An open resource platform for Chinese NLP [J]. Applied Linguistics, 2002(4): 50-56.(刘群,张浩,白硕.自然语言处理开放资源平台[J].语言文字应用,2002(4):50-56.)

[16]LIN X, WANG W. Set and string similarity queries: a survey [J]. Chinese Journal of Computers, 2011, 34(10): 1853-1862.(林学民,王炜.集合和字符串的相似度查询[J].计算机学报,2011,34(10):1853-1862.)

[17]LIAN J, ZHOU X, CAO W, et al. SINA microblog data retrieval [J]. Journal of Tsinghua University: Science and Technology, 2011, 51(10): 1300-1305.(廉捷,周欣,曹伟,等.新浪微博数据挖掘方案[J].清华大学学报:自然科学版,2011,51(10):1300-1305.)

[18]LI Y, YU H, LIU L. Predict algorithm of microblog retweet scale based on SVM [J]. Application Research of Computers, 2013, 30(9): 2594-2597.(李英乐,于洪涛,刘力雄.基于SVM的微博转发规模预测方法[J].计算机应用研究,2013,30(9):2594-2597.)

上一篇:硒的生物学功能及其在鸡生产中的应用研究进展 下一篇:基于优化相对主元分析的铝电解槽况诊断