气象数据的“大数据应用”浅析

时间:2022-09-08 11:33:27

气象数据的“大数据应用”浅析

1. 引言

据统计,2011年全球的数据规模为1.8ZB,这些信息将填满575亿个32GB的ipad,倘以这些ipad做砖石,足可以垒建起两座中国的万里长城。2013 年仅中国当年产生的数据总量就已超过0.8ZB,2倍于2012年,相当于2009年全球的数据总量。预计到2020年,中国产生的数据总量将是2013年的10倍,超过8.5ZB。而届时全球的数据总量预计将达到40ZB,如果将这些数据全部刻录成蓝光光盘,则这些光盘的总重量相当于424艘满载荷的尼米兹级航空母舰。

数据量暴增的速度令人瞠目结舌,我们的确已进入“大数据时代”。

很快地,“地理大数据”、“水利大数据”、“环境大数据”、“金融大数据”、“互联网大数据”乃至“气象大数据”等名词陆续出现在有关媒体上。“大数据”逐渐成为近来人们谈论最多、思考最多的技术话题之一。一些人憧憬于“大数据”可能带来的十分珍稀的高价值信息和珍贵商机,也有许多人困惑于目前所知“大数据”的应用范式,以此研判着可能给本行业带来的变化和新的业务契机――气象部门也是如此。

做为抛砖引玉,笔者拟就如下问题提出自己的看法:

(1)气象数据是否具备“大数据”的核心特征?

(2)所宣称的由大数据引发的思维变革,即:不需要专业知识背景而仅通过单纯的数据分析便可获得新的“知识”,在气象部门核心业务领域(天气预报和气候预测等)中是否适用以及为什么;它与“数据密集型科学发现”之间存在哪些差异。

(3)在大数据背景下,海量气象观探测数据的应用价值范围以及目前价值发挥的可能性。

2. 大数据的现实以及气象数据的特征分析

2.1 大数据的特征和在我国的行业分布

早在2012年前后,业界便已就大数据在体积、类型、速度和价值这四个方面的特征达成了共识,即所谓大数据的4V特征。限于篇幅,不再复述。

一般而言,大数据的起始计量单位至少是PB、EB或ZB级别。

据统计,就数据量而言,中国的大数据近期具有如下行业分布特征:

(1)互联网公司

目前国内互联网公司拥有总计约2EB的数据,其中互联网三巨头BAT(百度、阿里巴巴、腾讯)占有其中的3/4(约1.5EB)。

(2)电信、金融、保险、电力、石化系统

这些行业及企业数据量分布较为平均,就每个单位而言,大致都拥有10PB以上的数据,且年增量都在PB级以上。总和则有数百个EB的存储数据和数十EB的年增量。

(3)公共安全、医疗、交通、电子政务领域

城市:平安城市、智慧城市等工程的建设,监控摄像头遍布大街小巷。一个中等规模城市每年视频监控产生的数据约300PB。最保守估计(含定期循环清除),全国每年保存下来的数据在数百PB以上。

交通:飞机航班往返一次产生的数据达TB级。列车、水陆路运输每年产生并保存下来的各种视频、文本类数据约达数十PB。

卫生:整个医疗卫生行业,一年保存下来的数据可达到数百PB。

电子政务:一个智慧城市的电子政务所产生的数据每季度约达200PB。而调查显示,未来1~2年中国政府部门的数据规模超过100TB的将达到53.3%,有将近三成(33.3%)的用户数据规模是10~50TB。

(4) 其他,商业销售、制造业、农业、物流和流通等领域

随着产业互联网的普及,(线下)商业销售、制造业、农林牧渔业、(线下)餐饮、食品、科研、物流运输等这些传统行业的数据量将呈现迅速增长态势,但目前这些行业数据量尚处于积累期,体量不大,多的达到PB级别,基本约近百TB甚至数十TB级别。

(5)气象数据

气象部门需要永久保存的数据目前约4~5PB,年增量约1PB。

由此可见,以数据量而言,在整个大数据市场中,新兴的互联网行业巨头BAT,以及电信、金融、保险等行业占据比重较大。相对而言,气象数据无论总量还是增量,较这些数据大户至少低3个数量级。

需要注意的是,在大数据的“4V”特征中,“Volume”(体量巨大)仅为必要条件,而非充分条件,如同 30mm的日降水,在我国东南沿海地区十分平常,但在西北地区却是极可能成灾的罕见大雨,所以体量大小是相对的。事实上,大数据概念的提出绝非仅因为数据量的暴增,而且是因为数据已多到用传统方法无法处理,导致人们必须采用新方法、新思路乃至新理念予以应对。如果数据量虽大,但却能够处理和掌控,便不能称其为“大数据”。因此,“4V”对于大数据而言,既是特征,也是考量的四个维度。

2.2 气象数据的体量种类分布

气象资料种类繁多,仅气候专用资料,包括冰芯、花粉、树木年轮、历史文献、冰盖、海平面温度、洋流盐度、地表植被等在内的涵盖五大圈层的各种自然界及人类活动的观测资料,已达数十种。而应用于诸如天气、农业气象、人工影响天气、雷电防护、公共气象服务等业务领域的资料,种类亦十分可观(限于篇幅,不予展开讨论)。目前就体积而言,在所有气象资料中,地面观测、气象卫星遥感、天气雷达和数值预报产品四类数据占据总量的90%以上;其中:

地面观测资料:进入本世纪以来,地面观测方法从人工观测改进为自动观测,摆脱了人类居住条件限制的制约,地面气象观测台站数由本世纪初的不到3,000个,迅速扩展到目前的50,000余个,观测频度由最初的3小时/次调整到目前的5分钟/次,因而导致资料量呈几何倍数增涨,月增量由最初的约240MB猛增到现在的约2.4TB(在库容量),增幅约670倍。根据防、减灾以及气象服务的需要,未来扩建计划有可能将台站数继续扩增至70,000到100,000个,观测频度有可能继续加密到1分钟/次;因此未来六年内该类资料总量有可能在现有基础上再行扩增12.5倍,由现在的每天数百万条记录增至超过一亿条记录/天。而此后,由于观测资料的空间分辨率的提升未来主要依靠遥感手段解决,因此台站密度不会进一步大规模增加。具体数据见表1。

上一篇:金融业的云期盼 下一篇:从网络安全到安全网络