微博客用户行为特征实证分析

时间:2022-09-04 02:17:14

微博客用户行为特征实证分析

[摘要]微博客已发展成为一种重要的信息传播和交流工具,理解微博客用户行为特征,对于优化微博客平台、探索微博客在网络营销、教育及危机公共事件通报等方面的应用具有重要意义,也为研究新媒体传播理论提供数据基础。以新浪微博客为研究对象,抽取微博客平台提供的各项字段,从用户性别、地域、影响力等多个角度揭示当前微博客用户的行为特征及存在的问题。

[关键词]微博客 用户行为 互联网利用

[分类号]G206 TP393

1 引言

近年来国内微博客发展迅速,除新浪、搜狐和网易三大门户网站先后创建各自的微博客平台外,多家互联网公司、电子商务网站甚至传媒网站也纷纷在各自的网站上开办了微博客。与其他互联网交流工具不同的是,微博客的意义并不仅仅是一个单纯的信息传播和交流的工具,它惊人的信息扩散能力在许多领域都蕴含着潜在的应用前景。在美国,政府已将Twitter作为国家重大事件紧急通报系统,多家企业成立了专门的Twitter营销部门,一些教育机构已开始将微博客作为教育的辅助平台;在我国,企业正积极开始尝试利用微博客营销。尽管人们已经意识到微博客可能存在着巨大的应用潜力,但对于如何有效地利用它达到预期目标仍感到很迷茫,在Emarketer的一项调查中,多家企、表示不知道如何利用这一工具进行网络营销。微博客的应用前景涉及多个领域,无论是政府、媒体、教育机构还是企业,他们都需要从自身需求去考量微博客的不同价值及利用方法,而对微博客在各自领域应用潜力的挖掘以及具体实现途径,则取决于对微博客用户的理解和把握。因此,选择主流的微博客平台,基于大样本数据,多角度分析当前微博客用户在利用微博客过程中反映的各种行为特征具有较为重要的现实意义。

2 数据采集

用户行为特征研究通常是抽取一定样本量的用户属性数据和行为数据,利用数理统计等方法对数据进行归纳、统计和分析。本文选取国内影响最大、用户人数最多的新浪微蹲客作为研究平台,设计程序采集相关数据从多个角度考察用户特征。采集时间从2010年3月1日0时0分到3月8日9时40分。理论上认为样本量越大越好,但实践中发现,样本量过大不仅造成数据采集和存贮困难,而且在分析时运算速度也变得很慢。在权衡样本数量及操作可行性后,本研究采用了取两个样本的方法,一个样本量较大(以下统称该样本为大样本),但采集的字段相对少一些;另一个样本量较小(以下统称该样本为小样本),采集的字段更为丰富,几乎包括了新浪微博客平台提供的各项字段。这样做的优势在于,大样本由于字段较少,可以在有限的存贮空间,尽可能获得较多的用户数据,使某些研究基于较大的数据集基础;小样本用户量较小,可以取更多的字段,如可以抽取每个用户的博客内容,这样有利于对用户做更为深入、全面的研究。具体采集的方法是:随机选取一微博客用户“生活月刊”作为用户数据采集的起点,分别采集其“粉丝”和“关注”,再采集“粉丝”的“粉丝”及“关注”的“关注”,层层递进,到3月8日9点40分时采集到649006个用户后,人工中止采集程序,将其作为本研究的大样本集,大样本集中每个用户共有以下信息:用户名ID,个性域名,昵称,是否认证,性别,地域,粉丝数,粉丝ID。在前面的采集过程中,通过程序截取前12003名用户作为小样本集,对小样本集进一步采集更多的字段:自我简介、关注数、新浪用户ID、微博数,微博内容、发博方式或来源、转发数、评论数、每篇微博客发表时间、原创还是转发、原创人的ID、转发数、评论数。显然大样本拥有更多的用户数量,而小样本集拥有用户更多的信息。

3 微博客用户行为特征

3.1 认证用户

新浪微博客用户分为认证用户和非认证用户,新浪邀请明星、名人、重要新闻当事人、知名企业、知名机构、知名媒体及其知名高管进行实名认证,认证后的用户的用户名后会显示字母“V”,以示与普通用户的区别。在本实验的大样本集中,认证用户共有7919,未认证的有641087,即认证用户占全部样本用户的比例仅为0.12%。从这个数据上看,认证用户所占的比例极小。据测试,普通人(非名人)提供有效证件并满足新浪的基本条件后,即可以成为被认证用户,也就是说,新浪微博客名人认证的门槛并不高。为了考察机构认证的情况,在大样本中,检索以“医院、频道、网、杂志、学院、网站、政府、新闻、中国、周末、论坛、公司、图书馆、书会、导报、基金、画报、媒体、广播、文体台、中心、大会、事务所、俱乐部、协会、代表团、艺术团、出版社、宣传部、研究院、刊”为结尾的机构,共有2 184个,其中认证的只有350个,即高达84%的机构没有认证。为了进一步考察公司认证的情况,在大样本集中检索以“公司”为结尾的机构,共有197家,其中只有10家是认证的,即认证的公司仅占5%。机构(包括公司)注册微博客,对于展示机构形象、客户关系管理等有重要的意义,机构进行认证后,在不需要任何成本的情况下提升了机构的信度,但如此众多的机构竟然没有认证,说明很多机构(特别是企业)没有认识到认证的重要性或对这一功能不太了解,这一现象也间接地说明我国绝大多数注册微博客的机构与一般个人用户一样,仅仅是使用微博客的基本功能,还没有开始将微博客用于本机构的业务活动中。

3.2 用户性别

新浪微博客的性别是用户在注册时自己选择添加的,因此在普通用户中,存在少量有意反填性别的情况,但由于男女都有类似的行为,统计男性用户总量和女性用户总量时,数据误差不大,这与一般的网站用户注册情况类似。但是,新浪微博客的认证用户在填写性别时,如果认证用户是个人用户,由于认证用户要上传身份证,因此微博的性别与真实性别将一致;但是对于机构用户来说,由于新浪微博客的性别是必填项目,机构在注册时不得不选择一个性别,这些机构用户在性别上是选择男性还是女性呢?调查大样本数据,发现存在以下现象:认证用户中男女用户数分别是5130(占总用户数的64.7%)和2789(占总用户数的35.2%),非认证用户中男女用户数分别是371776(占总用户数的57.9%)和269311(占总用户数的42.0%)。也就是说,非认证用户中,男性数量多于女性数量,认证用户中,男性数量远远多于女性数量,这主要是大多数机构用户还是选择了男性作为机构的性别,选择女性性别的机构多是与女性有某种特殊关联或出于某种特殊考虑,如华东师范大学的微博客性别是“女”,可能与该校女生较多的缘故有关,服务于女性的机构(如生产化妆品的企业)多选择女性性别。

3.3 用户ID、个性域名及昵称

新浪微博客提供了三种用户标识:用户ID、个性域名和呢称。呢称是用户注册时自己起的名称。注册后,新浪为注册用户生成了唯一的用数字表示的ID

号,用户的微博地址就是:t.省略/ID,由于ID号难以记忆,为了让其他访问者记住注册用户的名字,新浪给用户提供了生成个性域名的功能,用户注册后,可以输入4到20位的英文或数字(必须包含英文字符),生成个性化域名,如上海形象大使“火炬手金品”的个性化域名是huojushoujinjing,访问者可以通过访问t.省略/huojushoujinjing访问金品的微博客主页。用户ID及呢称是每个用户必填的,但个性化域名是任选项。在大样本集中,设置个性域名的用户数为159855,占总用户比例的24.63%,其中认汪用户设置个性域名的为6 344人,占认证用户的80.11%,个性域名对于扩大用户知名度、提高用户访问量等方面具有重要的作用,从数据可以看出,认证用户对个性化域名的认知程度要远远高于普通用户。

3.4 用户地理分布与交互

微博客的用户数存在地域上的差异性,排除3870个用户未设置所在地区外,北京、广东和上海等发达城市的用户数量远远高于边远地区,北京、广东、上海、江苏、浙江五个地区的累积用户高达332001,超过总用户数的一半,其中位居第一的北京用户数几乎是第三名上海用户数的2倍。北京是全国的政治文化中心,上海是全国的经济中心,这从一个侧面说明我国微博客用户更多地是利用微博客进行思想和文化交流。此外,各省市微博客的用户数与当地的GDP呈正相关,相关系数为0.6265。从总体上看,经济发达地区使用微博客人数远远多于经济欠发达地区,政治文化中心使用微博客的人数要多于经济中心。如表1所示:

3.5 用户关注数与粉丝数

微博客是通过用户添加“关注”,获得被关注人的微博信息,当A“关注”B,B就被加入A的微博客页面,当B的微博内容更新时,最新内容显示在A的微博页面。对于B来说,A就是他的粉丝。一个人的粉丝数量大,从一个侧面说明他受关注程度高或影响力较大,一个人关注的人多,说明他具有更高的开放性。为了考察线下影响力是否影响线上影响力,同时考察受关注程度是否与性别有关,本文对大样本数据进行了分析(见表2),发现认证用户的粉丝均值远远高于普通用户,人均认证用户的粉丝数高达6500.95个,1.22%的认证用户吸引了73.82%的粉丝,其中,女性认证用户的粉丝均值又明显高于男性认证用户的粉丝均值。

文献认为twitter的用户粉丝数与关注数有正向相关性,但是本实验中,使用大样本数据观察,无论是样本总体用户、认证用户还是非认证用户,其粉丝数与关注数均没有相关性,我们认为,粉丝数量的多寡与用户本身的影响力及所贡献的信息内容有关,但其关注数量的多寡则取决于该用户的行为,有很大的主观性,肯德基与麦当劳两家公司在新浪微博客的两项指标也显示两者无任何关联,前者有大量的粉丝却很少关注他人,而后者粉丝数远低于前者,但关注数却高于前者,如表3所示:

3.6 微博客发送方式

微博客实现信息快速传播的一个重要原因就是在于其灵活多样的发送微博内容的方式,以大样本数据统计了新浪微博的各种发博方式并记录每种方式所发的做博客条数(见表4)。虽然微博客提供了多种发博的途径,但是从统计数据看,我国的微博客用户使用的方式并不多,直接在新浪微博上发微博占72.93%,使用手机和短信共占到12.52%,使用关联博客的为7.07%,这三种方式占到发博方式总量的92.52%。当微博客大规模地应用于企业营销时,使用手机和短信发送微博的比例一般会增加(特别是需要发送即时信息的企业),目前手机和短信所占的比例并不高,这也间接地说明我国的企业用户利用微博客进行网络营销的程度还不够,多数企业仅将微博作为一个展示企业领导人、企业、产品信息的窗口,并没有将它当作为其业务服务的工具。此外,我国用户数量最多的即时通讯QQ还没有与新浪微博客绑定,使新浪微博客少了一个重要的发微博的途径。

3.7 微博的时间

统计显示,一天中的上午11点和晚上23点是发微博的高峰期,午夜0点到上午8点这个时间段是一天中微博数量最少的时间段;19点前,普通男用户发文数略高于普通女用户数,19点后,普通女用户发文量高于普通男用户,但在0点时非认证男用户又多于非认证女用户。也就是说,女性更倾向于晚上发表微博;认证男用户发文量始终高于认汪女用户,并且,发文量明显高于认证女用户,这与认证用户中男用户总数远远多于女用户总数有关系。认证用户在晚上发微博的数量并没有明显低于白天发微博的数量,如果企业使用微博用于营销等业务,通常会表现为白天发送微博的数量远高于晚上发送微博的数量,这可能意味着在整个新浪微博客中企业利用微博客的份额并不大,这与从微博客发送方式数据中得到结论是一致的。如图1所示:

3.8 原创、转发、回复与评论

微博客用户交流方式主要有原创内容、转发其他贴子、对转发内容回复以及对原创内容进行评论四种形式。本文中的原创内容是相对转发、回复与评论而言的,是指微博客平台上某转发链(或回复、评论)发起者的微博,如一个微博用户写了自己的旅行感受,是原创,一个微博用户将酷六上的一段视频发到自己的微博中,被他人转发、评论或回复,在这个过程中,对于该微博内容(视频),本文也称为原创,这样界定的目的是为了强调它是微博客平台上信息传播的起始点。原创内容是信息交流的基础,只有具有一定数量的原创内容,才能给用户带来吸引力,才能引发评论等交流活动,并由此产生新的信息内容。一般来说,原创信息的多寡反映平台信息内容的丰富程度,而转发、回复及评论量的多寡反映用户信息交流的活跃程度。为了考察新浪微博用户原创、转发、回复和评论的情况,对小样本数据进行了统计分析(见表5),从总体情况看,新浪微博中,非原创内容是原创内容的8.5倍,转发数与评论数基本相差不大,用户通常在转发的同时也给予评论。比较认证用户和非认证用户,认证用户所写微博的数量仅略高于非认证用户,但是认证用户人均发表的原创微博却是非认证用户的2.7倍,而认证用户人均转发数和人均评论数更是非认证用户的7.2倍和7.6倍。认证用户的单位原创贴被转发次数和单位原创贴被评论次数反映了认证用户发表的每条原创微博平均被引用的程度,也是非认证用户的近3倍。即认证用户的原创能力特别是所产生的影响力远远高于一般的非认证用户。

3.9 微博内容

由于受限于140个字,微博客用户表达的往往不是某一具体事件的完整叙述,而是对事件、生活状态、意见的简短概括。但微博客用户所关注的话题及表达的主题,尚无进一步的统计或调查,而这对于了解用户使用微博客的动机是有意义的。本文采用改进的分词词频统计方法对微博客进行内容分析,考察微博客用

户的兴趣所在。

首先对小样本用户的微博客内容进行分词,获取198760个关键词,共出现33231856次。按词频排序,取前1000个高频词;再分析这些高频词左侧或右侧的关键词进行统计,获得高频词对表(见表6),这个表中每对词在语义上比前面的单纯的高频词更丰富。从表6中可以看到,新浪微博客用户关心的主要是政治、经济、娱乐和日常生活等话题。

3.省略被引次数最高,占CN被引量的77.省略.省略、org.省略、net.省略,将新浪微博客引用互联网资源与文献的结论对比,文献利用中国社会科学引文数据库统计了10年中国社会科学文献引用瓦联网资源情况,得到的顶级域名CN下巴述各域被引用的情况分别是10153、5425、2387、3278、1244,很明显,微博客的引用互联网的行为与人文社会科学信息用户引用互联网的行为有很大的不同,微博客用户主要是引用关联博客的资源,占总引用数的38.省略资源的利用远远弱于人文社会科学信息用户。

4 结语

本文以新浪微博的649006个用户为研究样本,从用户的性别属性、认证属性、地域分布、个性化域名认知度、发送微博方式、影响力、发表微博的时间、关注的内容、交流及引用行为十个方面系统展现了新浪微博客用户利用微博客的行为特征,由于新浪微博客与我国其他微博客平台架构基本一致,并且研究所选的样本量较大,因此,本研究结论基本上能反映我国微博客用户利用做博客的现状。结果显示,做博客平台是依靠少数认证用户提供原创信息并带动着群体信息交流;认证用户多来自新闻传播、娱乐领域的媒体类企业或名人,从而也使整个微博客用户关注的内容更为大众化和娱乐化;原创内容多来源于认证用户的博客,导致整体信息来源较为单一和封闭,国外信息资源极少被引用,使得信息质量总体欠弱,以消息、状态与感想为信息主体;用户对如何利用微博客提供的认证及个性化域名的认知程度不高,特别是很多企业用户对如何利用微博客平台提升自己的影响力以及将微博客作为工具开展业务尚不了解,不少企业其粉丝数甚至不足10人,相比较,传媒娱乐界对于使用微博客平台提升影响力的认知程度高于其他行业;发达地区与落后地区的用户数量具有很大的差异,普通用户的原创能力弱,其行为以转发及评论为主。微博客平台的设计堪称精巧,但在用户服务、引导及深层应用方面仍有很大的潜力需要挖掘。

上一篇:我国管理咨询市场现状分析研究 下一篇:微博客信息传播结构\路径及其影响因素分析