微博信息转发影响因素研究软

时间:2022-10-30 06:23:20

微博信息转发影响因素研究软

摘要摘要:基于社会化媒体数据研究信息的传播及预测,是当前网络舆情分析的一大热点。以Twitter数据为研究对象,以探寻影响信息转发的因素为研究目的,设计算法分析活跃邻居节点数对转发行为的影响,提出3种活跃邻居节点结构并验证三者对转发行为的影响程度,运用重启动的随机游走算法研究回复与提及关系对转发行为的影响。在Twitter数据集上实现了该算法,证明了活跃邻居节点数、活跃邻居节点结构、回复与提及关系对转发行为的影响。

关键词关键词:信息传播;转发预测;社交媒体;舆情分析

DOIDOI:10.11907/rjdk.162452

中图分类号:TP301文献标识码:A文章编号文章编号:16727800(2017)001001503

引言

当前,以网络为媒介的网络舆论成为公众舆论的主要形式之一,研究信息转发的影响因素,有助于研究网络舆情的演化与信息传播机制,对有效引导和管理社会舆论、化解舆情危机具有重要意义。在线社交网络的信息传播行为影响因素研究受到众多学者的广泛关注,并已成为当前研究热点。Kossinets等[1]利用聚类方法分析社会网络数据,构建网络特征传播树,建立信息传播概率模型。Galuba等[2]建立转发路径预测模型研究用户之间传播规律。Suh等[3]选取了标签、URL、关注者人数等众多因素,运用主成份分析方法建立模型,提取出用户转发的主要影响因素。Zhang等[4]研究分析影响用户关注网络结构对用户转发行为的影响,提出逻辑回归模型预测转发行为。李志清[5]针对单个用户个性化的内容兴趣偏好,通过主题抽取模型对微博内容进行语义主题抽取,运用SVM的方法预测单个用户是否转发某条微博。曹玖新等[6]根据实际社交网络新浪微博在线数据,对各种可能影响用户转发行为的因素进行统计分析,获得各种因素对用户转发行为的影响关系。以上通过对社交网络中信息传播路径的研究,分析信息传播影响范围,预测用户转发行为,得到信息传播的统计规律特征。但是微博客处于不断成长中,准确地把握微博客上的信息传播特点和模式非常困难,对于微博客的研究还有很多值得改进之处。

针对以上不足,本文对影响用户信息转发行为的影响因素进行分析,包括关注(活跃邻居节点数、活跃邻居结构)、回复、提及等,旨在为信息转发预测建模提供参考。

1活跃邻居节点数对转发行为的影响

在关注关系所形成的网络中,以某一个Twitter消息为例,若用户A转发了该消息,则认为A为活跃节点。若用户B关注用户A,并且用户B是活跃节点,则称用户B为用户A的活跃邻居节点。

本文首先研究活跃邻居节点数对用户转发行为的影响程度。文献[4]已经证明间接用户对邻居的影响很小[4],因此本文只研究了用户的直接邻居节点对用户转发行为的影响。具体思路为:统计每个用户的活跃邻居节点数,然后统计每个活跃邻居节点数的总用户数和转发用户数,计算出转发率,用转发率的大小来衡量活跃邻居节点数对用户转发行为的影响。

Step7:用t[n]除以tdu[n]得出百分比,即为邻居活跃节点数为n个的用舻淖发概率。

Step8:只有一个邻居活跃节点的用户分到Control组,其它的分到Treatment组,用Treatment组中数据分别除以Control组中数据,得到的比值用于衡量影响的大小。

图1为活跃邻居节点数对转发行为的影响程度,横坐标表示活跃邻居节点数量,纵坐标表示拥有多个活跃邻居节点的用户转发率与只拥有一个活跃邻居节点的用户转发率的比值。从图1中可知,随着活跃邻居节点数的增加,用户的转发可能性随之增加,呈现出一种增长趋势。综上所述,活跃邻居节点数对用户转发行为的影响确实存在。

2活跃邻居结构对转发行为的影响

在Twitter平台上,因关注与被关注关系的存在,节点周围有许多联系密切的邻居节点,包括关注者邻居节点集合和追随者邻居节点集合。根据Twitter平台信息传播的特点,用户往往可以看到其关注者发表的推文,再根据个人需求决定是否从其关注者处转发该推文。因此,有必要研究活跃邻居结构对用户转发行为的影响程度。

红色节点表示曾经都转发过某篇推文的活跃邻居节点,白色节点表示未曾转发过同一篇推文的不活跃邻居节点,节点之间的连线表示关注关系。图2(a)- (c)用户的3个活跃邻居节点的结构不同。对于联通邻居结构,删除用户V之后,用户V的3个邻居节点A、C、F之间能通过有限步数到达彼此,即所有邻居节点构成一个连通分量,称A、C、F组成一个圈。对于非联通邻居结构,A、F、C都不可以相互到达,称A、C、F组成3个圈。剩余的情况,即A、C、F组成两个圈,称作半联通邻居结构。

研究以上3种结构对用户V转发行为的影响。转发率(Retweet Probability 简称Retweet_P)用来衡量用户v的转发概率,转发率越大,用户v就越有可能转发该推文。首先找出样本数据中所有的至少有3个活跃邻居节点的用户节点v数据集,然后从中找出3个活跃邻居节点的结构符合上述3种结构的用户节点v数据集,对用户节点数据集中的每一个用户节点,判断其是否转发了同一篇推文,转发过同一篇推文的记作N+,未转发过的记作N―,那么转发率(Retweet_P)可用式(1)表示。Retweet_P=N+/(N++N_)(1)运用算法计算3种结构的转发可能性,结果如图3所示。

分析3种结果转发的可能性发现,联通邻居结构对信息转发的影响程度是非联通邻居结构的两倍多。3种关注网络结构反映了用户与其直接邻居节点之间的关系。上述结果显示,用户与其邻居节点之间关系越密切,转发可能性越大,可知用户的关注网络结构与转发可能性紧密相关。

3回复与提及对转发行为的影响

运用重启动的随机游走算法分析回复和提及网络对用户转发行为的影响。对网络中的每一个用户节点vi,计算τ深度活跃邻居节点vj与该用户的紧密程度,τ深度邻居节点vj的游走概率pj用式(2)表示。i=(1-c)Ai+ci(2)i=(Pi(1),Pi(2),…,Pi(|Gτi|))代表稳定概率向量,对向量中的每一个元素Pi(j)代表节点i与其邻居节点j的密切程度。|Gτi|是vi的邻居自我网络的大小,即邻居节点的个数。列向量i为重启动向量,表示初始状态下粒子在顶点i的概率。列向量i中设置目标用户顶点值为1,其余为0。A是转移概率矩阵,A的元素表示当前顶点i下一步到达顶点j的转移概率。c为直接回到出发顶点的概率,取0.8时效果最好。

转移概率矩阵A的构造在随机游走算法中意义重大。结合研究课题,用回复和提及网络来构造转移概率矩阵A。在关注网络结构的基础上,将回复和提及网络节点间的权重累加到相应的关注网络上,构造关注-回复-提及网络结构。那么转移概率矩阵A的每一个变量A[i][j]可以用式(3)计算出。A[i][j]=Aij∑|Gτi|j=1Aij(3)其中,Aij表示边权重,∑|Gτi|j=1Aij表示与目标节点相连接的所有边权重之和。

应用随机游走算法,从用户节点vi开始游走,每到一个节点都以1-w的概率停止游走并从vi重新开始,或者以w的概率从当前节点指向的节点中按照概率随机选择一个节点往下游走[7]。根据六步原则,随机游走的步数不会超过6。因此,经过不断迭代,每个顶点被访问到的概率就会达到稳定状态。随机游走转发概率和与实际转发概率的关系如图4所示,由此可知,实际转发概率与所有邻居节点的概率和成正比,用所有邻居节点的概率和可以较好地预测目标用户的转发概率。

4结语

本文主要研究影响用户转发行为的各种因素,分别研究了活跃邻居节点数、活跃邻居节点结构、回复与提及关系对转发行为的影响。相关结果表明,以上三者与用户的信息转发行为密切相关,能够为后续信息传播模型的构建及信息传播态势的预测奠定基础。

图4随机游走转发概率和与实际转发概率的关系

参考文献参考文献:

[1]KOSSINETS G,KLEINBERG J,WATTS D.The structure of information pathways in a social communication network[J].Physics,2008,109(11):7179.

[2]GALUBA W,ABERER K,CHAKRABORTY D,et al.Outtweeting the twitterers-predicting information cascades in microblogs[C].International Conference on Online Social Networks.USENIX Association,2010.

[3]SUH B,HONG L,PIROLLI P,et al.Want to be retweeted? large scale analytics on factors impacting retweet in twitter network[C].IEEE Second International Conference on Social Computing (Socialcom),Passat 2010,Minneapolis,Minnesota,2010:177184.

[4]ZHANG J,TANG J,LI J,et al.Who influenced you? predicting retweet via social influence locality[J].ACM Transactions on Knowledge Discovery from Data,2015,9(3):126.

[5]李志清.基于LDA主}特征的微博转发预测[J].情报杂志,2015(9):158162.

[6]曹玖新,吴江林,石伟,等.新浪微博网信息传播分析与预测[J].计算机学报,2014(4):779790.

[7]郭三君,万敏.一种改进的重启动随机游走立体匹配算法[J].中国科技论文,2016,11(2):242244.

上一篇:山药搭一宝吃了身体好 下一篇:农民进城窘境:看似不愿 实是“不敢”