大数据的本质及其可能的影响

时间:2022-09-27 10:40:09

大数据的本质及其可能的影响

如何促进数据共享和开放是中国大数据发展的重要议题。在数据隐私保护、知识产权框架及关键领域研发等方面,都需要政府发挥恰当的作用

关于大数据的议题,虽然早在1980年托夫勒的《第三次浪潮》中就有所提及,但在2011年前,关于大数据的讨论基本局限于计算机技术领域内部,影响范围相对较小。2011年5月,在EMC与IDC合作进行“数字宇宙”研究5年之后,正式提出了“大数据”的概念。同年6月,IBM、麦肯锡等众多国外机构相关研究报告,积极跟进大数据概念的推广。2012年3月美国奥巴马政府“大数据研究和发展倡议”,希望增强收集海量数据、分析萃取信息的能力,把大数据上升到了国家战略的层面。大数据逐渐引起广泛关注。

IT领域从来不缺乏新概念,近几年关于“物联网”、“云计算”、“智慧地球”等概念都曾引起了广泛关注,并在实体经济中引发了投资热潮。这一次“大数据”概念的提出,有何重要意义?与前几次相关概念的提出有何联系和区别?

大数据概念的内涵

1.大数据的来源。以更快的速度、更强的处理能力进行数据计算一直是IT领域技术创新的重要目标。从1946年第一台数字计算机发明以来,数据的体量和复杂性在绝大部分时间内一直是超越计算机处理能力的。一方面,技术的发展使人类能够逐渐地数字化各种事物,从数据、文字、图片、到声频、视频。数据采集、存储、扩散等的技术不断发展,使全面记录人与自然界各种现象的“泛在存储”成为可能。另一方面,计算机和网络的发展为人类开辟了一种前所未有的生活方式,拓展了人们的活动空间和范围,产生了大量新的数据。尤其是近年来移动通讯和物联网的迅猛发展,遍布于物理世界的移动设备、RFID、无线传感器等无时无刻不在产生数据,数以亿计的互联网用户也随时产生巨量的数据交互,构成了大数据的重要来源。另外,科学研究项目也在产生海量数据,例如欧洲大型强子对撞机每秒产生约700兆数据流,每年的试验数据达到1.5TB;全球医院每年仅医学成像数据可达20TB。

从数据类型来看,全世界结构化数据增长率大概是32%,而非结构化数据增长率则是63%。估计在2012年全球非结构化数据约占有互联网数据量的75%以上。目前阶段,对关系数据库中的结构化数据我们有相对较强的分析能力,结构化数据多年来也一直主导着IT应用,但在分层数据、文档、电子邮件、图像、音频、视频、商业及金融交易等非结构化数据所占比例越来越大的趋势下,数据的增长速度和数据类型的变化速度与计算机处理能力的差距愈发明显,如何挖掘传统技术难以发现的知识,成为重要的技术挑战。

2.大数据概念的相对性。从数据体量的绝对性观察,用计算机数据存储和运算的单位字节(Byte)来衡量,以1024为乘数,衡量单位依次跃升为:KB,MB,GB,TB,PB,EB,ZB,YB。2010年,全球数据量达到ZB级别,为1.2ZB,未来全球数据增速将会维持,预计到2020年全球数据量将达到35ZB。在当前阶段,麦肯锡认为处理量在TB级别的数据可称为大数据,IDC认为多个数据的集合有可能达到PB级的数据储量为大数据。按照IDC预测的全球数据量大约每两年翻一番的速度标准,我们不妨把眼光放在更远的未来,当人类在20余年后产生的数据总量越过ZB级,以其可猜想的数据处理能力,当前TB、PB级别的数据就难以称之为“大”数据了。所以大数据的“大”字带有阶段主观性。

大部分大数据的定义,其描述的重点都是数据规模的相对性。麦肯锡把大数据描述为“无法在一定时间内用传统数据库软件工具对其内容进行抓取、管理和处理的数据集合”,强调的是获取大数据价值的技术可行性;Gartner将大数据定义为“大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产”;强调发掘大数据价值的创新性;IDC定义大数据为“为了更为经济的从高频率获取的、大容量的、不同结构和类型的数据中获取价值,而设计的新一代架构和技术。人们并用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新”,强调大数据作为一项系统工程所覆盖的范围。从相对概念上讲,大数据的“大”是指在信息化发展的当前阶段,传统文件系统、关系数据库、并行处理等技术无法有效处理的极大规模数据或极限计算。我们需要新的能力来通过海量数据的交换、整合和分析,发现新的知识和创造新的价值。

3.大数据概念出现的必然性。理解当前阶段出现的大数据概念,需要结合互联网及物联网发展的历程进行分析。自上世纪90年代网络向公众开放,互联网从初期的简单联系平台,过渡到浏览平台,目前成为交互平台和工作平台,并正向着智慧平台迈进。在向智慧平台迈进的过程中,“物联网”、“云计算”、“智慧地球”三个概念的提出对“大数据”概念的出现有着重要意义。

物联网是通过射频识别、全球定位系统、激光扫描器等信息传感设备,把任何物品与互联网连接,进行信息交换和处理,达到对物理世界实时控制、精确管理和科学决策的目的,实现人与人、人与物、物与物之间的信息交互和无缝链接。如果说在物联网提出之前互联网着重解决的是人与人的信息沟通问题,物联网则是通过人与人、人与物、物与物的相联,解决的是人与世界的信息沟通问题,是互联网的延伸和拓展。

云计算是一种基于互联网的分布式计算技术,通过这种方式,共享的软硬件资源和信息按需提供给联网的计算机和其他设备来达到分散处理量的目的,可以在短时间内完成海量信息的处理。人类一方面通过高性能计算机的发展来达到更高的处理速度,另一方面通过计算方式的优化,形成更高的处理能力,以应对物联网等产生的海量数据。

“智慧地球”是IBM提出的概念。虽然在技术层面和安全层面可能还有所争论,但在战略层面已经得到国际间广泛的认可。“智慧地球”的主要推动力来自三个方面:一是“更透彻的感知”,即通过物联网实现物质世界的数据化;二是“更全面的互联互通”,即实现“物联网”与“互联网”的融合,实现人类社会与物质世界的整合;三是“更深入的智能化”,即通过云计算和超级计算机等先进技术,对感知的海量数据进行分析处理,以便做出正确的行动决策,使个人、企业、组织、政府、自然系统和人造系统的交互方式更具智慧。智慧地球的本质是建立在物联网上基础上的更加智能的数字化世界,云计算是这个数字化世界运行的重要方式。物联网产生大数据,云计算处理大数据,智慧地球是大数据处理要达成的目标,从这个意义上说,大数据概念的出现是物联网、云计算及智慧地球等概念发展的必然结果。

大数据可能的影响

1.行业发展层面。正在生成的海量异构数据中可能蕴含着目前尚未被认识到的全新知识。企业如果能在这些非结构化数据中挖掘出新的知识并与业务融合,不但其决策的依据将会更加全面和准确,而且有可能形成新的核心竞争力,进而在生产模式、商业模式、管理模式等方面发生深刻变革。

目前阶段,可能从大数据发展直接受益的行业主要是一些数据集中应用型企业。例如,金融行业的信息化程度高,数据量大且管理集中,为大数据的分析与利用提供了良好的基础。通过对客户行为的大数据分析,可以实现营销活动的快速反应,并为金融机构实现服务创新提供支撑;在电信行业,由于无线上网和智能手机的推广,数据量呈现爆炸性增长,同时电信业市场饱和度高、产品服务同质化明显,运营商有可能从大数据中获取新的知识以突破竞争现状。在医疗行业,通过数据支持的疗效比较、临床决策支持系统、医疗数据的透明化、患者远程监测及患者数据支持的高级病症分析工具,可以极大地提高医疗体系效率和辅助产生更有效的医疗模式及管理政策。在零售业,市场占有率的提高依赖于高水平的客户服务和良好的购物体验,以及有效的商品物流体系。对大数据的分析可以使零售商实时掌握市场动态并快速做出反应,生产厂商也可以通过对市场动态的快速反应改变产品策略。能源、交通等行业也是目前阶段可能直接受益于大数据趋势的行业。

2.思维方式层面。大数据的产业链主要有三个层面,第一层是数据层,主要是数据的采集、存储、传输、扩散;第二层是信息层,把数据背景融入数据,形成价值密度更高的信息;第三层是知识层,在信息基础上进行提炼,形成有价值的知识。“更高的洞察力和决策力”是大数据应用的核心目标,但仅有知识,是达不成这一目标的。相同的数据可以产生相同的知识,但相同的知识被不同的人认知和使用,可以形成不同的智慧。在目前大数据的发展阶段,人仍旧是形成智慧的决定性因素。

但大数据也在改变着产生智慧的基础。舍恩伯格 和 库克耶 (2012)提出了大数据时代三个重要的思维方式转变,代表了当前对大数据思维的基本认识:一是从满足于样本数据到使用全体数据;二是从追求精确性到容忍混杂性;三是从关注因果关系到关注相关关系。使用样本数据,注重精确性,探寻事物、现象间的因果关系是现代科学研究的基本思维,所以舍恩伯格 和 库克耶提出的这些思维方式转变,引起了一定程度上的争论。大数据的影响,与其说是要改变这些思维方式,不如说是拓展了我们探求知识的思维方式,在大数据时代背景下,我们可以用更宽泛的思维方式,来挖掘数据中隐含的知识。“互联网重塑了人类交流的方式,大数据则不同:它标志着社会处理信息方式的变化。随着时间的推移,大数据可能会改变我们思考世界的方式”(邱基尔和舍恩伯格,2013)。

3.智慧和战略层面。在数据的产生和扩散历程中,人类已经多次经历过类似于数据大爆发的历程。第一次是人类语言出现。语言的出现使数据具有了载体,并逐步形成了处理数据的逻辑框架。以语言对自然和人类社会的记录开始得以记忆和流传;第二次是文字的出现。文字克服了语言在时间和空间上的局限性,对自然和人类社会现象的记录由此可以长时间留存和长距离转移;第三次是印刷术的发明。印刷术大幅降低了人类知识的存储成本和空间传播和交流成本;第四次则是信息化。信息化在更大程度上消减了数据保存和扩散的成本,替代了知识的面对面交流和互动。鉴于信息技术消减知识传播成本的巨大潜力,很多学者认为,世界将最终“变平”,距离不再是数据、信息及知识交流的障碍。以上四次数据的大爆发,都带来了人类社会的巨大变革,究其根本原因,在于知识的存储与传播最终改变了人类的智慧。

自上世纪80年代“信息大爆炸”以来,数据一直在呈几何级增长。面对急剧膨胀的数字化信息规模和种类,人们抱怨信息太多以至于无法发现有用的或真实的信息。一方面,数字化信息作为一种资源在总量上并不稀缺,并很容易复制和传播;另一方面,对于个体来说,收集、处理、使用有价值信息的能力都是有限的。由此,数字化信息爆炸从一开始就对经济社会发展模式提出了新的挑战。信息膨胀从未停止并加速扩展,终于累积到了一个可能引发变革的程度: 数据的膨胀在“量”上引发混沌的同时,在“质”上可能开始显现出秩序。这可能对社会发展和管理模式提出了新的挑战,如何应对这种挑战,需要新的智慧和战略。

大数据产业发展中面临的主要挑战

1.技术层面。大数据在技术层面,要解决的是由于数据量、数据类型的快速增长,导致传统技术不能满足要求的问题。大数据产业的技术门槛较高,目前在该领域展开竞争的大都是在数据存储、分析等领域有着传统优势的国际厂商。从2007年左右开始,IBM、SAP、微软等国际巨头开始系统收购数据处理公司,布局大数据产业,其投资态势一直持续到目前。当前阶段,大数据计算的发展主要有三个趋势:分布式数据集群、高性能计算和大数据分析机。在计算机集群应对大数据计算中,以Google的MapReduce并行计算框架和分布式数据容错存储BigTable为核心的分布式计算机集群是应用最为普遍的。在雅虎等大公司的支持下,开源项目Hadooop已日趋成熟,衍生出应用于不同领域的分布式计算和存储平台,得到了广泛应用。

中国在Hadoop分布式数据处理与计算机集群方面进行了一些有效的研究,初步建立了大规模运算平台研发和实验环境,但总体在数据处理方面仍旧缺乏核心技术。在高性能计算机研发的某些方面具有一定的领先地位,但整体与国际先进水平仍有差距。技术创新具有偶然事件的特点,并不总是沿着确定的轨道发展,未来还会涌现大量能够处理大数据的工具和平台。除了Hadoop的批量化处理方式之外,基于流数据处理的方式也有可能在实时数据分析应用中发挥作用,数据可视化技术也有可能迎来大发展。这些工具的发展又依赖于人工智能技术,比如语言处理、模式识别和机器学习等技术的发展,大数据计算技术的发展仍旧是一个系统工程。

2.政策层面。在构建数字化智慧平台的过程中,近几年“物联网”、“云计算”、“智慧城市”等引发了我国各地的投资潮,出现了过热的隐忧。例如自2010年云计算被列入国家战略性新兴产业后,国内许多地方政府在国家扶持资金支持下大批量购买服务器,之后则出现大量闲置,缺乏应用的云计算实际上变成了房地产。智慧城市的概念被提出后,全国数百个城市一哄而上,纷纷以自身的理解来建设“智慧城市”,有可能造成低水平重复建设和不能互通互联的信息孤岛。如果忽略思考这些概念的本质含义,和其技术进步方向究竟隐含着怎样的市场和社会变革,而仅仅关注某一概念的建设能够启动多大的投资规模,迎来多大的市场机遇,最终把各种概念转化为基建设施投资,在技术和战略上只能跟随概念的提出者而无法超越。要防止把大数据变成又一轮盲目投资的由头。

目前制约大数据在中国发挥其更大作用的因素主要是以下几点:一是数据标准和共享问题。基于部门或区域利益,中国在数据领域的条块分割还很严重,不同部门的数据标准不一致,难以整合使用;不同部门在数据共享上设置障碍,社会难以共享数据成果。如何促进数据共享和开放是中国大数据发展的重要议题;二是数据隐私问题。大数据将个人生活的方方面面逐步纳入数字化,使个人隐私信息的泄漏和被滥用成为隐忧,企业如何利用基于公众的大数据需要法律法规的制定。三是知识产权框架和保护创新。在大数据发展趋势下会有更多的创新沿着数据价值链兴起,而数据和知识本身具有和其他实物商品完全不同的属性,中国知识产权体系还不健全,激励创新也许会面临问题。四是技术标准和关键领域的研发。政府在大数据技术及分析工具的标准制定上应发挥比鼓励投资更为积极的作用。涉及大数据的基础性研究、部分商业性机构不愿从事的投资和回报不对称的研究、以及大数据发展的重要关键领域,都需要政府发挥恰当的作用。

(作者为国务院发展研究中心信息中心副研究员)

上一篇:中国物流成本为何过高? 下一篇:“镉米”背后的土壤污染