互联网正进入数据和服务中心模式

时间:2022-10-29 06:57:12

互联网正进入数据和服务中心模式

云计算、大数据,这两个领域现在非常热。云计算和大数据中一个重要的内容在于,从量变到质变比较容易,然而从量变到质变的一个瞬间难以把握的,如何在信息技术发展的今天我们能够有新的机会,或者是再找到新技术,从分布到走到集中,集中又走到分布这样一些新机会。特别是互联网信息技术和产业发展当中我们能不能有更重要的机会。

在云计算和大数据的发展中,一直被提及的一件事情――是不是会出现互联网的第二次价值?这个价值可能窗口期不是很长,一旦大规模产业化应用的时候,从中发现问题的机会和之前创造技术带来的机会有所不同。现在数据有所变化,例如网民如今每次点击谷歌收费两美元,实际上其后台的支持非常大,互联上百万台的服务器、存储上百PB的服务器,而且功耗也很大,主要方式实际上是互联网进入了一个新的运营商的概念,不是基础设施而是服务运营商的概念。

云计算和大数据主要的问题

作为城市智慧,中国智慧应该在哪里?从一方面来说有交通、医疗、社区等等,这些方式保证了标准规范,有了安全支撑以后,更多的通过服务商和系统的管理运维可以提供对于社会和企业更多的友好应用。所以这种模式的发展可能会对于当前很多的状态产生改变,就像互联网改变了过去的几类传统产业,比如数字传媒业、电子商务、教育、医疗等,在整个现代服务业方面可能都会面临新的影响和冲击,特别是金融系统,所以互联网和信息化是非常重要的孪生兄弟,互联网快速发展也使得我们能更多的利用好资源。

既然如此就出现两个新问题:怎么用好这个资源,怎么管好这个资源。在技术上已经有了很多探索,包括之前面向科学计算、网格计算,互联网应用当中P2P等等有很多方式,实际上一个基本问题就是为了管好资源,而管好资源的基础是能够对这些资源真的形成创造能力和服务能力以及高可靠能力,所以管好资源很重要。

第一个方面就是资源的共享和管理。资源和数据已经成为了重要的基础设施,尤其是在信息化的发展里面,资源共享和管理是特别重要的。此外,资源本身在信息化中已经是一个重要的耗能产业,同时海量资源进入管理当中,也会对我们实际应用带来特别重要的影响。 去年光棍节淘宝交易额达到新的水平,在这样资源需求和供给极大的增长,短时间爆炸的时期,如何建立高可靠的资源管理,就是云计算面临的第一个重要挑战。

第二个方面是数据分析处理能力。 大数据是我们用现在的方法还不能有效处理的这类数据,所以从一个角度来说人类智慧还没有达到找到更有效对所有数据衡量进行分析的能力,科学数据是研究的基础,所以在数据走向丰富的时候,也可能会给我们带来影响。

此外,大数据的出现确实在某些方面给我们带来一些价值,在医疗应用、数据计算分析中都有很多好处,同时在社会活动中、经济领域都有通过对数据的归类和分析来进行预测。同时大数据分析也是对一种方法、一类数据的分析,是对所有的分析。

因此如何用好这些数据,就需要提高数据分析的处理能力。数据分析处理能力最重要的就是对于软件开发设计,这在传统的软件中已经是一个非常大的问题。面对互联网大量数据的出现,还有一个新问题,即在大数据时代软件工具还有不适应的问题,面向云计算和大数据仍需要的新一类技术和科学。

第三个方面则是网络安全和数据安全。要想资源能够被用好,能够放心地用,安全问题无论怎么强调都不过分。对于大数据来说,隐私和共享的问题成为新的矛盾。

科学问题与建议

在通信方面,互联网如今改变了很多通信的方式,实际上互联网正在改变我们的经济和社会生活。谷歌公司有4.5亿模型预测传染病,阿里巴巴能预测金融风险,有了搜索引擎就可以熟悉更多的浏览器,有了电子商务就可以熟悉客户的消费行为。如果我们行为方式有所改变,对大数据的分析处理是否能够有助于我们科学研究?这几年,科学研究是基于大数据的科学研究,在传统科学计算领域开始进入到网络计算,也提出了理论研究、实验研究、计算研究之外的数据密集型的研究,更有人提出大数据是否能成为科学研究。对此也有专题研究,同时美国、欧盟以及中国都启动对大数据研究的科学问题,因为对未来问题的发现也是一个重要的机遇,究竟大数据能否改变或者影响我们一定程度的思维模式,如果是的话,它会从什么角度开始?例如,在日常生活和行为方式上,我们通常在做饭时会用检查的方式来解决饭菜是否熟了的问题,这是在科技社会当中基本的经济统计的方法,以量本是均匀的假定进行我们的行为。但是大数据下的数据是不断变化的,表达的方式是多样的,所以过去以产量的方式可能结合了产量样本的分析,或者基于一个区域一个时间内对于施工下产量样本的共同研究。我们买一双鞋通常不会跑遍所有当地的商店,而是基本差不多就行,从科学方向的走向看着差不多就行情况下,计算就变得非常需要。

是否从大数据思维中我们能够发现认识更多的有关大数据的问题,这个问题表现特征对作为从事计算机的角度而言,第一个关心的就是大数据能不能处理。

在大数据下,过去易解的问题在现有环境下也可能变得不可解的,比如说一个PB的数据,光用现在最快硬盘读取速度1.9天,一个GB的数据需要五年左右完成,百度一天网页超过10个PB,百度用最快硬盘把数据读完就需要19天,一天数据需要19天读完,显然在数据处理当中它已经不是能解决的。过去认为能算的问题在这里可能算不了,所以对这类问题还需要有很多新研究。

其次是关于数据表征和度量的问题。要想计算、把它表示出来,大量毫无规律的数据怎么度量,怎么给社会提供数据?所以对于大数据、云计算的处理,一个基本的问题就是数据表征和度量的问题。其中涉及到数据极大的量,而且数据度量越来越难,如何度量?如何理解?有可能数据分析结果给我们带来直观上完全不一样的认识,但是它的合理性在哪里?数据表征度量是解决计算之后最重要的问题。

第三是数据怎么在实际处理中有效结合。现在数据处理当中比较为人熟悉的是hadoop,它不失为有效的方法,但是有很多局限性,例如面对计算能力,数据不断的增量发展,不仅要解决一段的数量,还要解决间接增加,不仅解决向下的分析方法,还有相融合分析数据,这可能对现在的软件系统提出新挑战,并且也适时产生很多研究。新的大数据、云计算处理模型是什么样,对现有的存储,体积机构有什么影响?如何有效支持数据分析和发展?在这里可能就形成了未来存储和计算的互动,就像拥有大数据的企业和公司一样,其存储和计算能力一定不是通用商业性,而是有效解决跟它最契合的数据内容。

第四是可信问题,建立隐私和数据的安全保护。这一类问题在大数据当中,在线模型云计算有很多挑战,这个领域安全问题在在线云计算当中多年来一直排在首位,其次才是性能和可用性。

大数据现在还没有真正形成一个产业,而在虚拟世界或者是对云计算的发展上却有相当大的机遇。

另一个方面,大数据如今还处在起步阶段,过渡的商业炒作对提升关注有好处,但是很容易忽略它后面的问题,因此也应该权衡好技术发展和产业应用的关系。此外,大数据的投资,在云计算也有很多基础,在教育、医疗、交通、能源利用方面大数据的分析的确有了效果而且有很多投资在此发展。大数据热度不减,是因为预测到了未来产业会应用巨大。

从电子商务轨迹来看,技术创新和产业机遇会有一个时间差,不同时间窗口下我们应该抓住其技术或产业发展中最重要的部分。云计算和大数据是一场可能会影响我们很长时间重要的内容,也许会对我们的行为、思维都会产生重要的影响,特别是在未来的交流上,但是同时也更需要产业界、学术界和资源拥有者能够共同合作来推进云计算大数据有效的发展,这对中国信息产业的发展和信息化的建设会有特别重要的作用。

(以上内容系根据怀进鹏院士在“2014第六届中国云计算大会”上的演讲整理而成)

上一篇:云计算laaS 新型企业IT 下一篇:乡村里的童话(组诗)