试论大数据时代的科技平台构建

时间:2022-07-27 10:03:10

试论大数据时代的科技平台构建

摘 要:传统数据库技术已无法满足海量数据的充分利用,大数据的管理和使用成为突出问题。大数据处理使实现精准化和精细化管理成为现实。本文对大数据的概念进行了深入探讨,并分析了大数据时代的解决方案与大数据科技平台构建的必要性及技术措施。

关键词:数据;科技;平台

中图分类号:TP30 文献标识码:A

1 大数据的概念

大数据是指在业务过程中产生的数据集合,尤指非结构化数据和半结构化数据。关于大数据,Gartner给出了这样的定义:需要新的处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。

大数据的特点是具有“4V”,或者说有四个层面:第一,数据体量巨大。从TB级别,跃升到PB级别;第二,数据类型繁多。如网络日志、视频、图片、地理位置信息等等。第三,价值密度低,商业价值高。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。第四,处理速度快。1秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。所以业界将其归纳为4个”V”——Volume,Variety,Value,Velocity。

物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器,无一不是大数据来源或者承载的方式。

“大数据”之“大”,不仅仅是指容量之大,更在于通过对海量数据的交换、整合和分析,发现新的知识,创造新的价值,带来“大知识”、“大科技”、“大利润”和“大发展”。

大数据并不等于大集中。相反,大数据往往与云计算联系在一起,因为实时的大型数据集分析需要分布式计算和并行计算模式(如MapReduce),把计算任务分配到分散的计算机上。如果说2012年是云计算应用元年,那么2013年就是中国的大数据元年。大数据与云计算是问题的两面:一个是问题,一个是解决问题的方法。云计算进行大数据分析、预测会使决策更为精准,释放出数据的隐藏价值。

2 迎接大数据时代

计算机技术经历了大型主机、小型计算机、微型计算机、分布式计算几个时代,目前已进入以云计算、大数据为代表的第五次浪潮。大数据浪潮的一个表现是信息技术(IT)市场从“以计算为中心”向“以数据为中心”转变。随着人类对数据的依赖程度不断提高,数据的生命周期也在不断延伸,而非结构化数据的增长远快于结构化数据的增长。

全球数据总量每18个月翻一番。据麦肯锡调查报告,美国15个主要行业中每家公司过去一年所产生的数据量,就超过了同期美国国会图书馆所存储的数据量。自从人类发明印刷术以来,以往一千多年来所有印刷材料相当于200PB(1PB=1015B),而2011年全球数据量就达到了1.8ZB(1ZB=1021B)。据IDC的2012年数字宇宙研究报告中预测,到2020年数字宇宙的规模为35ZB。

仅仅是从互联网,我们就可获得信息内容接触信息(浏览/点击的内容、时长等)、搜索/需求信息(经常搜索的词、搜索行为的转换、需求什么类型的信息等)、信息偏好(喜欢的信息、反感的信息等)、信息消费行为(消费时间、消费类别、消费金额、消费次数等)、人口统计信息(性别、年龄、职业、教育程度、婚姻状况等)、收发信息的设备和区域等信息(智能设备种类、系统、所在城市、网络接入情况等)。在大数据、移动互联网的支撑下,BYOD(Bring Your Own Device,自带设备办公)正在迅速得到普及。

2010年7月,联合国了《大数据促发展:挑战与机遇》白皮书,指出大数据对于全世界是一个历史性的机遇。2012年3月,美国总统奥巴马宣布美国政府拨款两亿美元启动“大数据研究和发展计划”,把大数据提升到国家战略位置。2012年10月,时任广东省委书记向公众推荐涂子沛先生所著《大数据:正在到来的数据革命》一书,在我省掀起了一股大数据热潮。

拥有处理大数据的能力和有效分析大数据的工具,正成为一种必需的竞争优势。大数据厂商早就注意到大数据市场的兴起,IBM、HP、Oracle、微软、SAP等IT巨头都是大数据市场的积极推动者,各自推出了自己的Hadoop版本。IBM在迎接大数据挑战的战略中,制定了“3A5步”的路线图,即掌控信息(Align)、获取洞察(Anticipate)、采取行动(Act)、学习(Learn)和转型(Transform)。其在2011年推出了Netezza数据仓库一体机,随后又推出了应对非结构化数据需求的InfoSphere Big Insights和实时分析需求的InfoSphere Streams产品。同时,Oracle公司推出了配有CDH(Cloudera Distribution Including Apache Hadoop)和OBDC(Oracle Big Data Connectors)的大数据机以及专门针对海量数据管理的分布式key-value数据库Oracle NoSQL。微软公司则推出了SQL Azure Hadoop产品。中国移动的“信令分析系统”项目和中国电信的“新一代数据库”产品已经采用大数据技术进行用户行为分析,实现精准营销。

大数据潜隐着巨大的价值,能够降低社会管理成本和交易摩擦成本,能够提高客户满意度。据麦肯锡测算,大数据技术的应用将给欧洲公共部门创造1500-3300亿欧元的潜在价值。

3 大数据解决方案

大数据处理需要新的数据库技术。EMC数据计算事业部大中国区总经理刘伟光指出“新型数据库应该具备如下特点:首先,应该采用支持大规模并行处理的分布式架构;其次,应该使用基于符合工业标准的开放硬件和系统平台,保证成本可控;第三,随着开源技术不断成熟,创新速度快,新型数据库平台应该易于与新的开源技术进行融合;第四,新的数据库平台应该可以实现与Hadoop平台的无缝集成,实现跨结构化、半结构化、非结构化海量数据的混合分析能力。”

大数据环境下,必须能对数据进行快速的捕获、管理、存储和分析。目前,大数据解决方案主要有Hadoop和NoSQL。

3.1 Hadoop

Hadoop是一个能够大数据进行分布式处理的开源的软件框架,具有高可靠性、高扩展性、高效性和高容错性的特点。

Hadoop主要由两部分组成:底部是HDFS(Hadoop Distributed File System),它存储Hadoop集群中所有存储节点上的文件;上部是MapReduce引擎,它负责对大数据集的并行处理。

HDFS支持以流的形式访问写入的大型文件,由NameNode和DataNode节点构建。NameNode节点只有一个,在HDFS内部提供元数据服务;DataNode节点可有多个,为HDFS提供存储块。HDFS 内部的所有通信都基于标准的 TCP/IP 协议。Hadoop的编程语言主要是Java,也可以是C++。

MapReduce是一种简化的分布式编程模式,其设计思想是将要执行的问题拆解成“映射”(Map)和“化简”(Reduce)的方式,先通过Map程序将数据切割成不相关的区块,分配给大量计算机处理达到分布运算的效果,再通过Reduce程序将结果汇整,输出开发者需要的结果。

3.2 NoSQL

NoSQL(Not Only SQL)是针对关系型数据库的瓶颈而提出来的革命性理念,实际上是一个分布式数据管理系统,具有大数据量、易扩展、数据模型灵活、高性能、高可用等特点。典型的NoSQL如key-value存储、列存储、文档数据库、图数据库、XML数据库和全文检索,最常用的当为key-value存储,其以键值对存储,每个元组可以根据需要增加键值对,减少了时间和空间的开销。“简化”(Simplifying)和“自动拆分”(Automating Sharding)可能是NoSQL数据库面临的最大挑战。

NoSQL具备的三要素:一致性(Capsistency)、可用性(Availability)、分区容忍性(Partition tolerance)。三要素最多只能同时实现两点,这就是NoSQL的CAP原理。分区容忍性是NoSQL的基本要求。

NoSQL的核心理论基础是Google BigTable模型和Amazon Dynamo模型。BigTable是一个稀疏的、分布式的、持久化存储的多维度排序Map,Map的索引是行关键字、列关键字以及时间戳,Map中的每个value都是一个未经解析的byte数组。Dynamo采用P2P(peer to peer)架构,数据定位使用一致性哈希,允许数据的多个备份存在多个版本以提高写操作的可用性,Gossip-based Membership Protocol通讯协议实现了节点间的直接通信。此外,市场上的NoSQL数据库还有CouchDB、Redis、MongoDB、Riak、Membase、Neo4j、Apache Cassandra、Apache HBase、SimpleDB等。

虽然大数据是目前IT最热的话题,但还存在一些有待进一步探讨和解决的问题:一是数据的真实性,二是标准和法规遵从,三是应用系统(平台)之间的兼容和整合,四是从事数据挖掘的专业人才匮乏,五是数据应用能力弱。

4 大数据提升科技平台

大数据是计算机科学、统计学、管理学、社会学等学科交叉渗透的产物,涉及互联网、经济、物力、天文、医学等领域。中国工程院院士李国杰指出:“科技界应高度关注大数据研究这一新的发展方向,从大数据应用中发现挑战性的科学问题,推动以大数据为基础的第四科学范式,促进形成新型交叉学科:网络数据科学。”

随着科学技术日新月异的发展,科技平台被赋予了新的内涵:人力、物力、财力资源通过运用管理科学手段,最终以数据的形式得以存储、整合、利用和分析,大数据在科技平台建设中愈显重要。

科技平台建设中,除了存在大量的结构化数据(标准数据库)以外,还存在与之相关的信息量更庞大的半结构化和非结构化数据,流媒体、图片如此,知识产权、科技文献、空间信息也如此。

在科技平台中,大数据从管理层次来看,可分为数据层、处理层和应用层,其层次体系结构如图2所示。

存储层:对资源进行数字化处理后得到相应的结构化、半结构化和非结构化数据,存储(分发)在指定的载体中。

处理层:对存储层的数据进行采集、融合、分发等处理,通常使用ETL(Extraction-Transformation-Loading)工具进行管理。

应用层:对数据进行综合利用和挖掘分析,提供决策支持智能服务。

在这个三层结构中,数字化是基础,集成是手段,挖掘分析是目的。

例如,在科技文献管理中,既要对科技文献进行归档建库形成结构化数据,还要对文献进行扫描、文字识别、实物拍照等数字化处理形成非结构化数据,再对其进行全文检索等综合利用。这其中,非结构化数据的存储容量就占了总数据量的95%以上。

又如,在信息检索中,除对站内信息进行挖掘外,也要通过互联网对网页、微博、传感器、多媒体等信息进行智能挖掘,所需处理的数据量浩如烟海。

再如,在大型仪器共享方面,我们可以通过物联网实时捕捉仪器设备的运作情况,把仪器设备的空闲资源充分利用起来。

在科技决策中,从数据库、网站、流媒体、短信、微博、社交论坛、移动终端等大数据中,我们可以进行准确地分析历史、提供个性化服务和预测未来。

科技平台是科技管理的重要内容,包括重大科研基地、科技条件平台和科技公共服务平台等。利用SWOT方法(见图3),我们可以探知大数据技术在科技平台中的机遇与挑战。

结语

在21世纪,数据已经变成生产资料,站到与硬资产和人力资源同等重要的位置大数据能使我们更全面地认识世界,更准确地预测未来。大数据将引发全球范围内的社会和商业变革。知识时代,我们只相信数据。

参考文献

[1]涂子沛. 大数据:正在到来的数据革命 [M]. 广西:广西师范大学出版社, 2012.

[2]叶成辉. 云计算、大数据变革浪潮继续高涨 [J]. 计算机世界, 2013(01):24.

[3]田溯宁. 2013,大数据元年的创新 [J]. 计算机世界, 2013(01):22.

上一篇:单片机AT89C51机房温湿度检测系统研究 下一篇:计算机操作系统的安全设置与防范