浅谈数据新闻记者如何找数据

时间:2022-10-30 10:43:33

【前言】浅谈数据新闻记者如何找数据由文秘帮小编整理而成,但愿对你的学习工作带来帮助。2.互联网开源数据 大数据时代的一个重要特征是“一切皆可量化”。我们在网络和现实生活中所产生的各种行为也会被以数字化的形式记录下来。而这些关系到社会生活方方面面的数据被网络服务商共享出来,就行成了广泛分布于互联网上的开源数据。这些数据的获取通常简单易...

浅谈数据新闻记者如何找数据

随着大数据时代的到来,数据新闻这一新闻业的新生事物一时受到学界和业界的广泛关注。作为数据新闻生产流程的起点,从何处去找数据,就成为摆在数据新闻生产者面前的首要问题。区别于传统意义上抽样统计的方法,大数据时代数据新闻记者在运用大数据手段开展报道活动最重要的优势在于拥有大量的原始数据,并使用“全样本”的方式展开数据分析。数据的真实性和精确度也决定着数据新闻最终呈现的质量,故获取到第一手的数据就显得特别重要。总结起来,我们大致可以通过以下几个途径有针对性的查找数据。

1.政府机构的开放数据

开放数据在日常生活中日益成为沟通政府和公民社会的一个重要的工具。而近年来在全球范围内蓬勃兴起的“数据开放运动”,也让更多过去不对公众开放的数据呈现在公众面前。早在2009年,为了促进政府及民间数据的公开共享,美国总统奥巴马就签署了《开放透明政府备忘录》,并在官方层面上线data.gov 美国政府开放数据库,涵盖农业、商业、气候、消费、教育、能源等十余个领域,向公民提供数据资源、研究工具和数据可视化等一站式服务。2013年6月,八国集团首脑在北爱尔兰峰会上签署《开放数据》,各国承诺不晚于2015年末向公众开放可供计算机识别的政府数据。2015年11月开放知识基金会公布的世界开放数据指数(Global Open Data Index,按照13个关键领域数据开放程度排名,包括国家预算、政府支出、选举结果、污染物排放等)显示,2015年台湾地区的数据开放程度为78%,位居121个国家和地区的首位,第一次以非欧洲地区成员的身份登上排行榜前三位。\+①院长毛治国表示,开放数据是提升公共治理、服务改革和促进经济协同发展的重要手段。

在中国,随着2015年9月《促进大数据发展行动纲要》的,我国数据开放工作也开始走进人们的视线。《纲要》中以目标的形式明确提出将在2017年年底前形成跨部门数据资源共享公用格局,2018年年底建成国家政府数据统一开放平台。此前,与国际上数据开放活动通常从国家层面开始实践不同的是,我国的政府开放数据首先是从地方层面开始先行探索的。早在2011年起就有北京、上海等地方率先建立起数据开放平台。如浙江省政府就在其政务门户中上线“公共数据开放”专题网站,开放了浙江68个省级单位提供的350项数据类目,涵盖经济建设、环境资源、道路交通、教育科技等多个领域一百多项可下载的数据资源。在国家层面上,虽然缺乏如美国data.gov政府数据统一开放门户,目前我们仍然可以找到一部分可以利用的数据资源,如国家统计局(http:///)国家数据门户,提供了详实的月度、季度、年度经济普查数据。此外,我们还可以从一些部委和研究机构的网站上找到一些专门的数据结果,如中国医学科学院建立的国家人口与健康科学数据共享平台(http:///),中华人民共和国环境保护部数据中心(http:///)等。

综上可见,近年政府在数据开放工作中的积极作为,为数据新闻生产者获取数据创造了有利的客观条件。以财新网数字说栏目为例,《三公消费龙虎榜》采集了90多个政府部门近年的预决算数据加以可视化,《京津冀八城空气质量倒数 PM2.5超标1.6倍》中的pm2.5数值来源于环保部数据中心的公开数据,这也是公众获取空气质量数据的重要渠道。但是我们仍要清醒地认识到我国总体数据开放程度偏低的状况。在2015年的世界开放数据指数中,中国仅仅位列于97位,\+②在各种政府数据公开的力度和广度上,远不如国际平均水平。推进政府层面上的数据公开和共享,我们任重而道远。

2.互联网开源数据

大数据时代的一个重要特征是“一切皆可量化”。我们在网络和现实生活中所产生的各种行为也会被以数字化的形式记录下来。而这些关系到社会生活方方面面的数据被网络服务商共享出来,就行成了广泛分布于互联网上的开源数据。这些数据的获取通常简单易得,甚至被有些记者称作是天然的“新闻富矿”。例如每天都会有用户在互联网网上搜索与旅游相关的信息,并且随着季节和节假日的变动,其搜索数量具有明显的周期波动性特征。百度通过对数据的深度挖掘发现,有关旅游的关键词的搜索数量和实际旅游人数之间是具有密切关系的,并依此预测旅游景点的人流量变动趋势。

此外,某些组织或企业拥有某一领域的专门数据库,其中有一部分是被开放到互联网上供公众浏览获取的。比如阿里巴巴的阿里指数平台,提供了当前电子商务领域的运行状况分类数据。但是类似的数据开放平台分布比较分散,记者可以根据需要从搜索引擎检索,或参考行业数据开放名录,如199IT大数据导航(http:///)等。

3.社交网络海量数据

在社交网络上,每一名用户都是数据源。每秒都有数以千计的讨论和发言在产生,数据量呈指数级的增长。社交网络的飞速发展在很大程度上拓展了信息获取的渠道,同时开拓了更多的新闻源。对社交网络上的鲜活数据进行挖掘和分析,可以发现数据背后所隐藏的意义,无论是网络中个体的点还是作为群体的面,我们都能通过数据分析对其属性做出大致的描画,同时对趋势做出判断。

数据新闻生产者可以充分利用社交网络上的海量数据去发现新闻、获取新闻线索。以国内用户规模最大、活跃频率最高的社交网络新浪微博为例,在这个用户总量达2.12亿,每日平均活跃用户数为1亿(2015年9月)人次的社交平台上,在其高峰期,每分钟就会产生73万条微博的发送量。而在当前被用户提及次数最多的话题(通常以百万、千万乃至亿级别的讨论量计数)会以列表的形式在微博信息流页面右侧即时显示,记者可以据此追踪当前的热门事件,产生选题并展开进一步挖掘。此外还有一些关于社交网络的第三方传播分析工具也可以为记者解读分析数据提供极大的便利。例如基于新浪微博的微博传播分析工具“知微”,可以对单条微博的传播路径、关键节点和层级做出非常清晰生动的可视化展示,其内容分析功能对用户的情感取向亦可做出概要式的分析,数据新闻生产者可以根据情绪指标和高频词汇的挖掘对当前舆论情况做出准确判断并从中找出最有价值的信息。

4.众包模式

众包(Crowdsourcing)是指“一个公司或机构把过去由员工执行的工作任务,以自由自愿的形式外包给非特定的(而且通常是大型的)大众网络的做法。众包的任务通常由个人来承担,但如果涉及到需要多人协作完成的任务,也有可能以依靠开源的个体生产的形式出现。”\+③数据新闻生产者在做策划和编辑时,可能会遇到没有数据可用,面对选题无从下手的问题。这个时候完全可以利用众包模式,集合大众的智慧和力量去搜集数据。《南方周末》在2014年春节前的报道《“回乡测水”家乡水,清几许?》,就是利用这一模式,以公益捐赠的方式筹集读者购买水质监测设备,利用外出人员春节假期返乡的时间,测量家乡水质并将数据提交至水质分布地图(),为众筹结果提供一个可视化的呈现界面。虽然最终被提交的数据结果并不够多,但从获取数据成本和所需人力角度考虑,通过众筹来获取水质数据已是完胜传统的调查研究方法。众包模式数据获取方式特别适用于可以激发公众兴趣,易调动公众参与感的选题,这样可以让受众自发地搜集处理数据,群策群力完成整个报道。正如《卫报》编辑阿兰・卢斯布里杰所说:“受众参与报道对未来报纸的发展具有决定性意义,因为一家报社如果不利用新媒体技术将自己与读者联系起来,必定会错失创新发展的机会。”

5.自行调查采集

当数据新闻记者通过各种渠道仍然无法获取相关数据的时候,可以尝试自行调查采集数据。为此,数据新闻记者可以借鉴社会调查研究方法中的问卷法等方式,遵循客观性、科学性和系统性的原则设计调查问卷,以此了解调查对象,或者征询相关人群的意见。同时应使用专业的社会科学研究技术,以提高数据获取的深度和准确度。

使用这种方式获取数据与传统的调查性新闻报道有一定的相似度,但现今利用互联网开展相应的调查(例如寻找调查对象、发放问卷、回收问卷和审查问卷)是非常便捷的,例如英国《卫报》Datablog栏目中的很多(有约15%的比例)报道就是使用自行调查的方式去获取的数据。在关于美国总统大选进程的新闻报道中,《卫报》积极利用其网站进行调查,以此获得一手数据,测量读者的态度以及意见倾向,其后依据读者的反馈,做成选民意见的数据地图呈现出来。

大数据时代的本质在于开放和共享。我们对信息和数据交换共享的需求催生了互联网这一伟大的创造,在互联网+和大数据上升为国家战略的今天,随着官方和民间层面数据开放意识的日益提高,我们有理由相信在未来的数据新闻生产活动中数据的获取将会更加便利,数据源亦会日益丰富。

当然,单单数据本身并无特别的意义,它只有在被作为特定的用途使用时才能发挥其作用。数据新闻生产者可以根据选题需要,选择合适的数据来源切入,查找、选取与主题相关联的数据集合,这是数据在其后能被顺利分析和呈现的基础。

[注释]

①http:///News/taiwan/archives/2015/12/10/2003634477[EB/OL].

②http:///2015/08/25/global-open-data-index-2015-is-open-for-submissions/ [EB/OL].

③杰夫・豪:《众包:群体力量驱动商业未来》,中信出版社,2011年9月[M].

(作者单位:山东师范大学传媒学院,山东 济南 250000)

上一篇:让学生在趣味阅读的天地中学习语文 下一篇:初探农网无功优化补偿