开源工具支持下的社会网络分析

时间:2022-10-04 02:01:12

开源工具支持下的社会网络分析

【摘要】在大数据背景下,学习分析已成为远程教育领域的重要研究主题。其中,社会网络分析是学习分析的重要组成部分。已有研究者对论坛为主的远程交互进行了社会网络分析,但对于新兴Web2.0工具和社交平台中交互的社会网络分析研究仍很欠缺。究其原因,数据获取和分析过程的复杂性是重要因素,而优秀的分析工具可以使社会网络分析过程事半功倍。本文在对现有社会网络分析工具进行比较的基础上,从数据获取、网络技术和图形定制三方面介绍了NodeXL的功能,并通过一个在线教学分析案例介绍了该工具的使用过程。最后,文章分析了NodeXL对于远程教学实践者和开发者的意义。

【关键词】 NodeXL;学习分析;社会网络分析;交互分析;开源软件

【中图分类号】 G40-057 【文献标识码】 A 【文章编号】 1009—458x(2013)02—0014—07

背 景

近年来,微博、社交网络平台(SNS)等Web2.0工具的快速发展大大促进了用户之间的远程交互。在这些工具的支持下,用户间发生着多种多样的交互行为,如浏览、回复、评论、关注、加为好友等,同时产生出了海量交互行为数据,使得基于行为数据的交互分析成为可能。在大数据的影响下,一个新兴的研究领域——“学习分析”(Learning Analytics)随之产生。在学习分析领域中,远程教育研究者进行了一系列研究。英国开放大学、加拿大阿萨巴斯卡大学等远程教育机构的研究者都对学习分析在远程教学中的应用进行了深入的研究。这些研究者中包括联通主义的主要提出者、加拿大阿萨巴斯卡大学的西门斯博士(Siemens)[1]。

2011年举行的首届学习分析与知识国际大会将学习分析定义为“测量、收集、分析、报告学习者及其学习情境的相关数据,以促进对学习过程的理解,并对学习及其发生的环境进行优化。”[2]通过这一定义可以了解到学习分析对数据的依赖性。学习分析需要将复杂的教学过程和庞大的行为数据有机整合。这一目标的实现需要在教学情境之下,针对多种分析任务,使用多种分析技术。

根据学习分析的不同任务,英国开放大学知识媒体研究所的Shum和Ferguson在《社会学习分析(Social Learning Analytics)》中把学习分析划分为五种类型,分别为学习网络分析、学习对话分析、学习内容分析、学习气质分析、学习情境分析[3]。从这一分类中可以看出学习分析是多种分析方法的统整,其中社会网络分析是一个重要的组成部分。

社会网络分析在社会学研究中有较为久远的历史渊源。1950年代,卡特赖特和哈拉瑞以图论为研究工具对社会互动展开了研究。哈佛商学院则在著名的“霍桑实验”中,首次运用社群图描绘了霍桑工厂中的社会互动结构 [4] 。而Watts等人的“小世界”理论让社会网络分析产生了广泛的社会影响[5]。

在远程教育领域中,特别是网络工具快速发展的背景下,社会网络分析被赋予了浓重的在线行为分析色彩。与社会学领域中的自陈式问卷、实地观察等方法不同,远程教育领域中的社会网络分析多由在线关系分析和在线行为分析构成。

近年来,国外研究者开始应用社会网络分析的方法研究Twitter和Facebook等社交媒体中的教学交互现象[6][7]。在国内研究中,王陆[8]、胡勇[9]为代表的国内研究者通过社会网络分析对以论坛为主的虚拟社区在线交互进行了分析。但对新兴社交媒体中的教学交互研究目前还较为少见。

究其原因,社会网络分析自身的复杂性是一个重要因素。与论坛中的交互相比,微博等社交媒体支持下的交互数量众多,内容庞杂,给分析带来了很大困难。即便研究者具备了社会网络分析的相关知识。前期的数据预处理工作也常常令人望而却步,分析过程中的数据调整和可视化工作也极为繁复。

社会网络分析离不开工具的支持。好的研究工具可以使研究过程事半功倍。对于社会网络分析工具的研究就成为成功进行社会网络分析,乃至整个学习分析的前提。

社会网络分析工具的发展

由于社会网络分析的重要性,多种分析工具应运而生,至今仍在蓬勃发展之中。有研究者对社会网络分析工具进行了研究,功能对比是最常见的研究方法。其中,最具有代表性的是Huisman和Duijn对于23种社会网络分析工具的对比[10],研究者从多个角度对比了当时各种主要网络分析工具,包括Pajek、NetDraw、Netminer、UCINET等目前仍广泛应用的工具,该比较涉及软件的使用对象、数据格式、主要功能、支持帮助等信息。王陆在此基础上根据是否商业化和是否可视化将这些软件进行了进一步分类,并重点比较了NetMiner、Pajek和UCINET[11]。Hansen等人分析了各种社会网络分析工具,并指出缺乏界面友好和操作便捷的社会网络分析软件是社会网络研究在实践领域开展不足的重要原因[12]。Smith等人指出了JUNG、Guess、Pajek等多种社会网络分析工具的操作复杂性,指出简化操作并降低数据获取的难度,可以促进社会网络研究的开展[13]。通过对与社会网络分析工具的研究可以发现,随着各个领域对于社会网络分析的重视,其分析工具正在快速发展之中,工具应用的便捷性对分析的开展有着重要影响。

通过对现有的社会网络分析工具的分析还可以发现,按照工具的使用者可以将这些工具分为面向程序员的工具、面向研究者和数据处理专家的工具,以及面向实践者的工具,其应用门槛由高到低。

1. 开发接口

此类工具与编程语言密切相关,功能强大完备,但需要使用者有一定的编程经验。其代表有JUNG、Prefuse和Guess等工具。其中JUNG是Java Universal Network/Graph Framework的缩写,提供了一整套扩展库以实现基于Java的社会化分析和图形化[14]。Prefuse是另一种基于Java的数据分析工具,后又推出了支持Flash制作工具的Prefuse Flare。[15]Guess是基于Gython(Python的一个扩展版本)的数据分析工具,带有完整的操作界面,可以通过Python语言直接输入指令完成数据分析。[16]此类工具对于编程技能的要求将绝大多数使用者挡在了门外。

2. 专家工具

Pajek、UCINet 和NetDraw等工具是这类工具的代表。它们服务于具有较高数据处理技能的研究者。其应用不再需要编程能力,但对使用者的数据处理能力提出了较高要求。这一类工具同样提供了强大的分析功能,可以实现一定程度的可视化,但操作较为复杂,生成图形的灵活性欠佳。此类工具适合专门领域的研究者使用,对于广大教学实践者而言,门槛仍然较高。

3. 实践工具

随着社交媒体的应用日益广泛,社会网络分析的需求日益扩大,一类面向实践者的新型工具开始出现。此类工具的特点是界面友好,应用便捷,但功能依然强大,在很大程度上减少了数据预处理的工作量。由于此类工具大大减轻了社会网络分析的工作量,为远程教育的一线实践者敞开了通向社会网络分析的大门。NodeXL、Gephi、Netminer等就是此类工具的代表。

其中,NodeXL的特点尤为突出:它与Excel这一日常应用非常广泛的工具深度整合,降低了使用门槛;极大简化了操作过程,实现了一键数据可视化;提供了多种参数调整,覆盖了社会网络分析的绝大多数需求;并可以从Twitter、Facebook等社交媒体中直接导入交互数据,有着极高的实践应用价值。本文将对NodeXL的使用进行介绍。

NodeXL功能介绍

1. 概况

NodeXL(Network Overview, Discovery and Exploration add-in for Excel)与微软办公软件Excel深度整合,以Excel2007/2010模板的形式使用。加载模板后,使用者可以在Excel工作表中对社会网络的基础性数据(如边的信息)进行添加和编辑,之后只需要点击一个按钮就可以完成分析,并获得可视化图示。

NodeXL的开发者来自微软研究院、马里兰大学、斯坦福大学等机构。该软件遵循微软公开协议(Microsoft Public License,Ms-PL),可以免费使用和分发,并可以在此基础上进行二次开发。

2. 界面与功能

(1) 界面介绍

NodeXL的界面以选项卡的形式出现在Excel 2010中,如图1所示。功能从左向右分为数据、图形、可视化属性、分析、选项和现实/隐藏6个标签组。原有的Excel界面被分割成了两部分,左侧是数据界面,右侧是图形化结果。

在左侧的数据界面中,包含社会网络相关的多个工作表。其中最重要的有边(Edges)、节点(Vertices)、群组(Group)和整体度量(Overall Metrics)四个工作表。右侧的界面主要显示社会网络的可视化结果,其中,“动态过滤器”可以依据各种度量值(如出、入度等)对社会网络进行过滤。“刷新图形”则可以根据数据的调整重新获取数据。

(2)功能特性

NodeXL的功能特点可以被总结为三个方面,即数据获取、网络计算和图形定制。现分述如下:

NodeXL可以导入多种社会网络分析工具(如Pajek、UCINET、GraphML等)生成的文件,同时可以导入一般数据文件(如cvs文件等),保持了良好的兼容性。

同时,NodeXL的一个特色功能是可以从社会网络媒体导入数据,可以从Flickr、Twitter、Facebook和YouTube中直接导入数据。只需要提供这些工具的账号和密码就可以方便地从中获取社会网络信息。

借助Excel,NodeXL可以非常方便地进行数据的输入和转换。由于,NodeXL的数据本身就在Excel工作表中,Excel对数据的编辑功能,如计算、排序和筛选等功能都是可用的,这为数据处理提供了很大方便。

图1 中左侧显示的数据即是笔者从Flickr中直接获取的用户交互数据。

网络计算与图形化

NodeXL可以实现出度、入度、相邻性、中心性、聚类等等常见社会网络计算。只需要输入边的相关信息,NodeXL就可以通过“分析”(Analysis)标签组中的“图形度量”(Graph Metrics)功能,计算出这些值并填充到Excel数据表中。“图形属性”(Visual Properties)中的“自动填充栏目”(Autofill Columns)可以自动填充节点、边和群组中的属性值。

在“边”工作表中输入数据后,只需要点击“刷新图形”就可以生成社会网络图形。如果图形过于巨大,或者包含的边过多以至于无法发现交互规律时。NodeXL可以实现自动生成子图(Sub-graph),对图中的每一个节点自动生成社会网络图形。。

图形定制与数据过滤

在图形初步绘制完成之后,还可以对其进一步定制调整,使得重点信息更为突出。在图形选项中可以对边和节点的颜色、形状和大小进行调整。还可以根据条件对不同节点设置不同颜色。下图2为图形选项设置界面,图3为定制后的图形,图4为动态过滤器界面。NodeXL支持通过多种参数对社会网络图形进行过滤,可以对出入度、各种中心性、集聚系数等度量进行调整,从而呈现符合特定条件的节点和边。

应用案例

下面将通过一个在线学习案例介绍NodeXL的使用过程。由于案例分析的目的是以说明工具应用为主,故此在介绍的方式上以数据分析的过程为主线。限于篇幅,在内容上仅涉及了整体交互行为的一个侧面,并不试图对案例中的交互情况进行全面分析。在研究方法上,本案例部分借鉴了Smith等人[16]的研究。

1. 案例介绍

本案例来自中央民族大学对新生开设的计算机基础课程。课程内容包括Windows操作系统、互联网应用、Office办公软件、多媒体应用基础等内容。课程采用了混合学习模式,包含12周网络学习和6学时面授。网络教学在自行搭建的Moodle教学平台中进行。参与课程的学生是通过入学考试选出的计算机水平较高的一部分学生,共有106名,来自全校各个院系。

在学期初,教师在课程中安排了一个相互认识环节,要求学生在Moodle中完善自己的个人信息,包括兴趣爱好等,之后,访问其他同学的个人信息,以增进相互了解。教师建议每个同学至少访问5个学生的信息,但并未强制要求。学生之间相互访问的行为数据被记录在Moodle平台数据库中。

2. 分析过程

(1) 数据获取

在此次学习活动中,Moodle共记录下了586条交互数据,涉及106名学生和两名教师(如图5)。Moodle支持行为数据的导出,可以将数据导出成Excel文件。导出的数据可以直接复制粘贴到NodeXL模板中的边(Edges)工作表中,如图6所示。

(2)整体网分析

在初步分析时,在“图形”(Graph)标签组中将网络类型设置为无向图(Undirected)以获得交互的整体图景。点击“刷新图形”,NodeXL将自动生成节点信息,填入节点工作表中,并显示图形,见图7。在NodeXL选项卡中点击“分析”标签组中的“图形度量”按钮(Graph Metrics)后可以计算出社会网络的重要参数,包括出度、入度、中心性、密度等信息,如图8所示。

(3)图形定制与数据过滤

通过整体分析已经得到了此次学习活动中的整体交互面貌,但其由于交互信息过多,图形过于复杂,并不能得到清晰结果。如果对各个节点的大小、颜色等根据各个度量值进行调整,可能会更为清晰地了解该活动中学生的交互情况。

在本案例中,度和集聚系数是度量交互状况的两个重要变量。其中,度代表着学生与他人交互的频繁程度。集聚系数则代表着学生与其他学生联系的紧密程度。集聚系数越高表明其节点成团的程度越高,也就表明了学生聚合成小团体的程度越高。于是,通过”自动填充栏目”(Autofill Columns)针对这两个参数值对图形进行定制。

其中,将颜色设置为按照集聚系数从绿色到红色渐变,半径大小设置为其度值,得到的结果如图9所示。可以看出红色节点都较小,而绿色节点则可以很大。这表明了,集聚系数较高(红色)的节点,其度反而小。也就是说,在本案例中,与周围小团体联系紧密的学生,没有与其他学生进行频繁交互。鉴于集聚系数和度可能会产生相互影响。这时有必要分别把出度和入度情况进行研究。

网络类型设置为有向图(Directed),重新生成图形(见图9),可以对各节点的出度和入度进行分别讨论。出度与教师布置的任务直接相关。教师在布置任务时建议学生访问5个以上其他同学的信息。达到了这一要求的同学其集聚系数和出度的情况是怎样的呢?在“动态过滤器”中选择“出度”,将其值最小值调整为5,结果见图10。图中剩余的节点颜色更接近绿色。这表明了这些访问了较多其他学生信息的同学与周围小团体联系的紧密程度较低。其中,两个同学的情况非常典型。图10中两个最大的节点所代表的学生,其访问其他同学信息的情况最为频繁,但颜色是很浅的绿色,代表了与他人联系紧密程度很低。

在“动态过滤器”中选择入度,并进行调整。发现将其值最小值调整为4时,两个节点都在图中消失了(见图11)。这说明两个节点所代表的学生被访问的次数很少。至此,发现度最大的两个学生,其集聚系数很小。为了进一步分析这一现象,需要分析学生个人的交互情况。

(4)个体网分析

为了分析每个学生在活动中的交互情况,需要对以学生个体为中心(Ego-centric Networks)的网络进行分析。选择“分析”标签组中的“子图”(Subgraph Images)可以把每个学生的交互图输出到特定文件夹中。在“图形”(Graph)标签组中选择“自动生成”(Automate)可以将每个学生的子图以及相关信息插入到Excel表中。图12是计算后所生成的图形和数据。为了便于讨论,仅截取了相关部分的数据。

可以看出,前文所述集聚系数较低而出度较高的两个学生的数据,相应节点的入度分别为2和3。也就是说仅有两三个学生访问过他们的信息。这与其出度(均为42)形成了鲜明对比。显然,这是两个不同于一般同学的学生。至此,社会网络分析将笔者从交互的整体图景导向了一个具体的交互现象。对于这个现象将在后文进行解释。

3. 讨论

在上述分析过程中,首先对学习活动进行了整体性分析,之后对个体的中心度和集聚系数进行了进一步分析,在分析过程中,通过不断调整相关参数发现了一个交互现象。诚如西门斯所言,社会网络分析,乃至整个学习分析,不一定能对学习过程给出全部答案,但一定可以让研究者去问更多问题。在此环节中,笔者将对本研究发现的问题进行解答。

总体而言,案例中学习活动所形成的是一个稀疏的网络,其密度仅达到了0.06,表明整体交互并不频繁。造成这一现象的主要原因有两个,一是这个学习任务并非强制,二是任务发生在网络学习的初始阶段,学生对网络学习的自主性不强。然而,在这个稀疏网络中却存在着两个与其他节点交互特别频繁的节点。

特殊节点的发现来自于对各个节点的度和集聚系数的考察。其中,度代表了单个学生和他人交互的频次,集聚系数代表了学生与他人形成小团体的程度。一般而言,如果一个学生与他人形成了交往密切的小团体,应当有着较高的度,同时有较高的集聚系数。但在本案例中,却发现了两个很特殊的节点,其度非常高,但集聚系数却非常低。进一步对这两个节点分析出度和入度情况表明,这两个学生的出度很高,但入度极低。

这个现象意味着什么?社会网络分析自身已经不能给出解释。笔者通过对这两个学生进行访谈发现,他们在班级中没有太多熟悉的同学,所以很希望结识更多新朋友。这一发现印证了分析结果。在后期学习中,教师安排这两个同学担任小组长,负责一些在线活动的组织协调,其表现积极活跃。

4. 小结

以上案例描述了NodeXL中一次社会网络分析的过程,包括了从数据获取、整体分析、图形定制、数据过滤到个体分析的全过程。其中,首先,通过Moodle平台获取了学生数据。之后,对其进行初步分析获得了整体交互情况。接下来,根据需要对形成的网络进行了参数调整,实现了动态过滤和图形定制。从而更为清晰地反映了交互状况。最后,针对网络中发现的特殊节点通过子图生成功能进行了个体网分析,更为清楚地了解了特殊节点代表的学生的交互情况。补充进行的访谈印证并进一步解释了交互状况及其原因。案例分析体现了从原始行为数据到宏观交互图景,再到微观交互现象的过程,具有典型意义,展示了NodeXL对社会网络分析的功能特性。

诚然,正如前述,本文中的案例分析重在展示一个NodeXL数据处理的完整过程。基于这一目的,笔者从教学实践者的角度,描述了如何针对一个教学活动展开分析的真实过程,从整体图景,渐渐聚焦到一个特殊的交互现象,再通过访谈对其进行深入挖掘,最终基于分析实施了教学干预。

通过本案例的分析过程可以获得两个结论。第一,社会网络分析可以呈现交互过程的全貌和细节,有助于描绘交互过程,发现交互现象。第二,社会网络分析并不能对交互过程进行全面解释,交互过程的分析需要多种研究方法的整合。从这两个结论也可以发现本研究的局限,即没有在设计阶段将多种研究方法考虑在内,因此对于交互过程分析的深入与全面程度不够。在后续研究中,将试图整合社会网络分析、内容分析和学习行为的统计分析对在线学习交互过程进行分析。

总 结

NodeXL代表着交互分析工具发展的一个新方向。它降低了分析门槛,与使用者较为熟悉的工具软件Excel相结合,可以直接从Web2.0工具获取数据,通过便捷的操作实现数据分析,并通过灵活的方式实现了依照条件的数据过滤和可视化图形的定制。这在很大程度上降低了数据获取、处理和呈现的难度,让使用者可以专注于对交互现象的分析和解释。

NodeXL带来的便利不仅造福于研究者,更造福于实践者。远程教学实践者在教学中有条件积累大量数据。如果能够对这些数据进行分析,无疑会成为教学评价和教学干预的重要依据。但工具应用的复杂性往往将实践者挡在了学习分析的大门之外。NodeXL所代表的工具较好地解决了这一问题,从而为教学提供了更多实证性证据。

对于分析工具的开发者而言,NodeXL所代表的分析工具也有着重要的启示。身处“大数据”时代,分析工具的开发者应当重视交互数据接口的作用。重视数据分析工具的开发。在我国,商业领域已经开始了对各种互联网数据的分析,如一些针对新浪微博等平台的数据分析工具和服务。但这些工具的数量、功能和可用性都还有很大的提升空间。在研究工具方面,此类工具还几乎是空白,有着极大的发展空间。

对于在线学习平台的开发者而言,NodeXL直接联通Web2.0工具的能力预示着与学习管理系统深入结合的嵌入式学习分析的可能性。未来的学习管理系统中,对于学习者行为数据的分析必然是其功能的一个重要组成部分。西门斯等人已经为嵌入式学习分析提出了一个完整的模块化系统设计模型。[17]基于学习过程中行为数据的分析挖掘可以对教学决策产生重要的支持作用,使适应性学习成为可能。

大数据时代的学习分析已经显示出了巨大潜力。在适当的工具支持之下,必将出现更多的实证研究,从而有可能在数据证据的支持下,解释远程教与学过程中的诸多规律。

上一篇:中国航运业迈入战略合作时代 下一篇:课题研究中问题意识的探索