基于知识图谱的公开情报研究可视化分析

时间:2022-07-06 09:07:44

基于知识图谱的公开情报研究可视化分析

引言

公开情报(Open Source Intelligence,OSCINT)是指可以公开合法获取、以打印或电子数据等多种形式存在的相关情报信息[1],具有传播方式多样、分布渠道广泛、蕴含信息海量、不涉及权利归属争议等特点,历来是情报研究的重点之一。美国国会研究服务机构(Congressional Research Service,CRS)在2007年提交给国会的一份报告中指出:“我们的分析人员长期以来一直借助公开情报来支撑、配合、验证秘密情报,但是系统地收集公开情报并非情报委员会(Intelligence Community,IC)的核心事务,面对近些年国际环境的变化,我们的情报机构应该投入更多力量到公开情报收集及分析当中”[2]。截至2013年11月,美国中央情报局(Central Intelligence Agency,CIA)已经建立专门的公开情报中心[3]为其情报人员提供培训和支持,国家情报总监办公室(Office of the Director of National Intelligence,OSDI)更是为了开展公开情报研究工作组建了多个保障机构[4]。

当前,伴随信息网络的普及和终端应用的丰富,各类公开、实时、动态的信息充斥于我们周围,公开情报的研究前景显得空前广阔。但是公开情报本身的信息冗余和失真现象十分严重,为追求较高的研究效益和情报价值,笔者采用知识图谱研究方法,借助CiteSpace软件对近20年该领域的研究情况做一系列可视化分析,以期较为清晰地展现当前国际公开情报研究的热点和前沿问题,为研究人员提供参考和帮助。

数据来源与研究方法

2.1数据来源

本研究使用的数据采集于Web of Science网站,WOS作为一站式科研资源库,其包含的引文数据跨越多种学科、覆盖全世界最具影响力的12 000多种期刊[5],用户可以方便地检索并下载到所需的引文数据。为确保检全率和检准率,笔者设置检索主题词为:Open Source Intelligence*、Open source information*、Public information*、Public intelligence*、Disclosed information*、Disclosed intelligence*,在WOS搜索引擎中选择Web of Science数据库,依次输入上述主题词,检索时间为2013年11月4日,时间跨度为所有年份,引文索引勾选全部选项,检索得到相关文献之后选择信息科学与图书馆科学(information science library science)进行学科精炼,设置记录内容为全纪录和引用的参考文献,选择输出并保存到本地纯文本格式文件,汇总得到有效引文数据3 196条。

2.2研究方法

知识图谱是显示科学知识发展进程及结构关系的可视化图形[6],通过数据挖掘、信息处理、知识计量和图形绘制把复杂知识显示出来,揭示其动态发展规律,为科学研究提供有价值的参考,具有广泛的应用空间和良好的发展前景。CiteSpace[7-8]是目前知识图谱领域影响力较大的一款软件,系美国Drexel大学陈超美教授用JAVA语言研制而成的,该软件与WOS数据兼容性好,生成的知识图谱即可直接解答某个研究领域的知识基础、研究热点及前沿等核心问题。本研究采用CiteSpace V3.7R7版本,有关该软件的下载及安装使用请见参考文献[9]。

公开情报研究可视化分析

3.1主要国家(地区)和机构分布知识图谱

3.1.1主要国家(地区)分布知识图谱

设置Time Slicing为1993-2013年,计20年,每2年为一个区间,设置Node Types为Country,top N% per slice为30,勾选最小生成树(Minimum Spanning Tree, MST)算法,运行WOS数据得到图1,共计34个国家(地区)、1个连接点,其中发文频次排名前10的国家分别为:美国(850篇)、英国(223篇)、西班牙(135篇)、加拿大(134篇)、中国(112篇)、巴西(77篇)、澳大利亚(72篇)、挪威(58篇)、德国(54篇)、韩国(38篇)。

图1 主要国家(地区)分布知识图谱

从图1可以看出:①图中仅有一条连接线(英国与苏格兰),表明各国公开情报研究均独立进行,彼此不交流;②各国发文数量差距很大,美国和部分欧洲国家处于领先地位,其中美国的发文数量几乎等同于其后9个国家发文数量的总和,中国位列第5,与美国的差距较大;③图中4个国家的引文年环带有红色内圈,分别是英国、德国、意大利、印度,表明这些国家近些年文献数量急剧增加。

3.1.2机构分布知识图谱

设置Node Types为Institution,top N% per slice为10,其他参数不变,运行WOS数据得到图2,共计140个机构、23个连接点。从图2中可以看到:①机构类型主要是各类高校,其中以美国高校居多;②连接点都是各国内部高校之间的交流,极少跨国;③图中明显可见的有3所高校的引文年环带有红色内圈,表明其近些年文献数量急剧增加,文献突增机构统计见表1。

3.2知识基础

知识基础是某个研究领域的早期奠基文献以及共被引频次和中心度都比较高的文献的合集。它在相当长的一段时期内具有稳定性[10],可以作为分析研究前沿及发展趋势的可靠依据。陈超美教授认为研究前沿的知识基础是它在科学文献中的引文和共引轨迹[7],笔者借鉴此观点,通过生成高共被引文献的知识图谱来展现公开情报研究领域的知识基础。

设置Node Types为Cited Reference,top N% per slice为30,其他参数不变,运行WOS数据得到图3,共计981篇文献、984个连接点,图中每个引文年轮代表被引文献,年轮越大表示被引频次越高,中间带有红色内圈的表示该文献被引频次激增。考虑篇幅,笔者列出被引频次前10位的相关文献,见表2。

文献1、3、9均与用户使用体验关系密切,这与公开情报研究的最终目的相吻合,即为用户所接受并创造情报价值。其中被引频次最高的文献1是1989年美国密歇根大学的F. D. Davis所写的《感知有用性,感知易用性,感知信息技术的用户接受性》一书,他在该书中提出了信息技术有用性和易用性这两个变量,并指出这两个变量是信息技术是否为用户接受的核心指标[11];文献3《基于统一视角的信息技术可接受性》由马来西亚Multimedia大学的V. Venkatesh于2003年发表,他在文章中总结了以往实践中8种反馈较好的用户可接受性模型并逐一分析其变量,然后将这些变量随机组合以探索新模型[12];文献9是1991年新泽西州大学的C. C. Kuhlthau所写的《检索过程窥探:从用户角度看信息检索》一文,他在文章中以用户的角度对ISP(information search process)进行了深入分析,探讨了用户建设性检索行为对于解决其自身实际问题的意义[13]。

文献2、4、10均重点论述了定性分析相关内容。定性分析是开展科学研究的重要方法,也是定量分析的前提和基础,应用到公开情报研究中即可以在情报搜集阶段排除大部分冗余信息,避免了后续定量分析上的资源浪费,可以大幅度提高研究效率。文献2《扎根理论之探索》由加利福尼亚大学的B. G. Glaser于1967年发表,作者在文章中指出“扎根理论”不仅可以提高社会学科学家的理论研究能力,并且适用于一切以定性数据分析为基础的学科[14];文献4《定性数据分析:原始素材的拓展》由M. Miles发表于1994年,作者在文章中为数据定性分析人员提供了丰富的组织、分析、展现这些数据的思想和灵感[15];文献10《定性研究之基础篇》的作者为A. Strauss,出版于1990年,作者在书中为学生以及应用学科研究人员介绍了一系列实用的流程和技巧用于扎根理论研究,从而免去了数据收集之后的分析解释环节[16]。

文献5《结构化方程式模型评估:隐性变量与测量错误》由C. Fornell发表于1981年,作者在文章中提出了基于结构化模型、测量模型和体系模型共享参数量化的一套测试系统,用以解决测试方法与模型之间因样本数量过大而溢出的问题[17]。

文献6、7、8均涉及组织科学,但各有侧重点。文献6《发展功能健全的电子政务:四阶段模型》由K. Layne发表于2001年,作者在文章中提出了电子政务的四阶段模型,并在不同的阶段模型中为读者勾勒出电子政务的结构和功能,同时探讨了各阶段模型如何与传统的管理架构相兼容的问题[18];文献7《构建虚拟政府:信息技术与体制变革》由J. Fountain于2001年出版,作者在书中描绘了以信息技术带动体制变革,进而构建虚拟政府的美好前景,并分析了由此将给每个独立个体带来的前所未有的信息获取机会[19]。文献8《开源软件与“个人―团队”创新模式:组织科学的相关问题》由E. VonHippel发表于2003年,作者在文章中提出了一种复合型的创新模式,即“个人―团队”创新模式,用以克服个人创新模式与团队创新模式各自存在的弊端[20],提升组织的创新能力。

3.3研究热点

关键词是对作者写作意图的高度概括,体现了文献的主题思想和主旨内容。若某个关键词的出现频次和中心度较高,则可以视为研究热点。设置Node Types为Keyword,top N% per slice为10,勾选路径网络简化算法(Pathfinder),其他参数不变,运行WOS数据得到图4,共计255个关键词、536个连接点,引文年环越大表示该关键词出现频次越高,年环中心带红色内圈表明其频次激增,年环中心带紫色光晕表示其中心度[21]高,具体数据见表3。

从图4可以看出,信息(information)是最大的节点,互联网(internet)位列第2。情报是信息的子集,信息涵盖的内容远大于情报,庞杂的信息只有经过转化吸收才能演变为情报[22]。信息的载体非常广泛,传播渠道也非常多样,但在网络高速发展的今天,信息与互联网的结合为公开情报研究提供了完美的契机。互联网在某种意义上讲即是最大化的公开,研究人员足不出户就能收集、获取各类情报素材,也可以定制自己所需类型的特定信息[23],省去了许多不必要的程序性事务,从而将主要精力集中在数据分析及其有效利用上,极大地提高了公开情报研究的效率和质量,无疑会成为公开情报研究的热点。

排名第3、4位的分别是技术(technology)和模型(model)。信息整序和有效管理历来是公开情报研究的重点和难点问题,应用技术手段可以很好地解决该问题,尤以通信技术和计算机技术为代表[22]。技术应用的理想目标是模块化、集成化、体系化,以解决环境、样本、参数差异对技术可移植性、跨平台使用的限制,而模型则是实现这一目标的前提条件,目前学界已经提出了许多较为成熟的情报研究模型[24],完全可以给我们提供指引和借鉴。

排名5、6、7、8位的分别是电子政务(e-government)、系统(systems)、管理(management)、知识(knowledge)。政府作为社会知识资源的最大拥有者,其政务信息历来是情报来源的一大核心[25]。以往收集政务信息通常难度大、代价高,伴随当前电子政务的广泛应用,政务信息得以相对公开,普通公众即可接触到此类信息,这对公开情报研究来说是个好机会。知识管理系统作为电子政务的底层业务支撑,具有收集、处理、分享一个组织的全部知识的功能,可以显著提升该组织信息管理的效率与有效性,其内在功能与价值目标与公开情报研究均相吻合,值得加大探索力度。

排名第9位的是性能(performance),笔者在此将其理解为情报的有效性与可靠性,具体含义见参考文献[26]。公开情报研究的目的是服务决策,这就对情报的有效性和可靠性提出了很高的要求,根据情报工作实践,刘昭东等学者提炼的四字原则――“广、快、精、准”即是对此要求的经典描述[27]。

排名第10的是交流(communication),笔者在此类推理解为社交网络(social network service)。社交网络的工具包含E-MAIL、BBS、IM、BLOG、Twitter等,基本上涵盖了当前社会人类“非接触型”交际的大部分内容,从历史维度来看,社交网络更是一个推动互联网向现实世界无限靠近的关键力量。社交网络在公开情报研究领域越来越受重视,美国国防部就利用社交网络来获取情报[28],而美国政府则试图通过监控Twitter账户状态及博客更新实现突发事故的初期预警[29]。

3.4研究前沿

陈超美教授认为研究前沿(research front)是一组突现的动态概念和潜在的研究问题[7]。CiteSpace自带有突变检测功能,通过检测选择项的突增指数,为用户提供研究前沿的知识图谱。在Term Type面板里勾选Burst Terms,点击Detect Bursts进行突变词检测,完成之后设置Node Types为Term,top N% per slice为10,勾选MST算法,运行WOS数据,而后在控制面板选择时区视图(Timezone),得到图5,共计623个单元项、871条连接线。

排名第1位的突变项是2007年的“实践指导意义”(practical implications),表明在该年度,公开情报研究领域尤其关注于理论研究对实践的指导意义,在公开情报研究的具体方法和技术探索等方面更倾向于实践应用,理论研究的成果与实践结合更为紧密。排名第2、3位的分别是2002年的“开源软件”(open source software)和2004年的“开源”(open source),表明在2002年度,开源软件吸引了公开情报研究人员的极大关注,比较有影响力的相关开源软件有Dspace、ssl-explorer等,这些开源软件获取免费,没有功能限制,可以进行二次开发,给需要个性化使用的用户提供了很大的便利;2004年度,开源的范围则超越了软件源代码,网络上的各类开源信息都被纳入了公开情报研究人员的视线,克兰菲尔德大学的S. Gibson在其《公开来源情报――情报的生命线》一文中更是详细论述了在信息超速发展的当今时代,开源情报已然成为公开情报研究的生命线。排名第4、5位的是“政府信息”(government information)和“社会媒体”(social media),与二者相关的内容已在上文(研究热点之电子政务与社交网络部分)分别论述,不再重复。

研究不足与期望

笔者利用CiteSpace软件对Web of Science数据库中与公开情报研究相关的数据进行统计分析,对近20年来国际上公开情报研究领域的相关问题做了探讨,但是这一方法有其固有的局限性。首先,数据来源局限于Web of Science数据库,其他大型的数据库(如维普、万方、CSSCI、Wiley、IEEE等)的数据并未被纳入研究范围,难免存在分析不全面的问题;其次,正如前文论述,公开情报领域各国均是秘密进行,涉及的资料及文献收集获取难度很大,能够被收录到Web of Science数据库中的极有可能是已经过了解密期的文档或者是未设秘级的文档,那么其本身应有的情报价值即难以高估,使得本文分析研究的内容只能是旁敲侧击地体现主题,未能直击要害;另外,笔者未能将国内外学术机构近期所举办的学术交流会议或者专家学者近期所发表的相关成果、专著等引入到数据源中,显然遗落了部分重要研究对象。综上所述,未来的研究还应该侧重于完善数据来源与对数据进行实时更新等方面,也应当参照借鉴其他文献计量法对公开情报研究进行进一步的探讨分析。

总结

本文利用CiteSpace软件对Web of Science数据库中1993―2013这20年间与公开情报研究相关的文献数据进行统计分析,重点分析了研究力量分布、知识基础、研究热点、研究前沿几个问题。得出如下结论:①当前国际上公开情报研究主要力量分布在以美国为代表的一些西方国家;②承担研究任务的机构主要为上述国家的高校及科研单位;③研究热点集中于互联网、信息技术、知识管理、电子政务、社交网络等方面;④研究前沿为实践指导意义、开源信息、政务信息和社会媒体等方面。

上一篇:如何对幼儿的区域活动进行有效指导 下一篇:浅谈地理课程资源开发利用存在的问题及应对策...