2013微软技术节:信息迈向智能

时间:2022-06-28 01:58:16

2013微软技术节:信息迈向智能

在传统概念中,IT(Information Technology)一词一直被译作信息技术,它代表管理和处理信息所采用的各种技术总称,通常的概念主要涵盖计算机科学和通信技术。但随着信息技术的飞速发展,我们的IT世界不再一味追逐更快的速度、更轻薄的体积抑或更长的续航时间,让“技术更懂用户”成为这个行业新阶段的发展目标,我们正在迎来IT一词新的诠释,“智能技术(Intelligent Technology)”正在来到我们身边。

而在技术智能化的浪潮中,“自然用户界面(NUI)”和“大数据”这两个子领域的突破功不可没,这恰巧也是本次2013微软技术节最重要的两个技术方向。

最近的5~6年间,人类与设备的交互方式得到了从未有过的长足进步,键盘、鼠标的地位受到了前所未有的挑战。多点触摸屏、体感设备、语音识别功能开始具备实际的应用价值,用户向趋于完全自然的人机交互方式迈进了一大步。我们可以用手指、身体或声音与数字设备交互,数字设备也开始逐步获得像我们人类一样的感知能力,它们也开始慢慢地像人类一样能够听到、看到或者知道自己在哪里,感受甚至理解运动和形状。

自然的输入方式让数字设备开始跳到桌面之外,融入我们的工作和生活之中,我们将见到越来越多智能的桌子、冰箱或汽车……

与显露在外的自然用户界面不同,大数据所产生的魔力通常都隐藏在产品身后,但大数据却往往能够带来技术上质的变化。

随着互联网、移动互联网的发展,技术研究机构将获得爆炸性增长的数据,而且它们还能够在全球范围内收集数据。这样的海量数据对科学研究的影响意义深远,数据密集型研究已经成为继实验科学、理论分析和计算机模拟之后的科研第四范式,Peta级(十亿兆规模)的数据处理能力使研究员们可以做到没有模型和假设也能从数据中发现知识和规律。这将帮助研究员解决很多以往看似无法解决的问题,如大幅提高机器语音识别的能力。

微软研究院在这两个热门领域中都投入了大量的研发精力,不仅每个领域都有出色的技术面世,而且它们还有效地推进了几种技术的相互整合,例如用更加自然的方式展示和组织数据,用大数据的方式让计算机更好地理解用户的行为等。下面我们就为大家介绍本次微软技术节中比较有特色的几项技术。

微软研究院特色素描

微软研究院在全球大约有850名博士研究人员,这超过了许多大学的博士人数。在微软研究院的全球体系中大约有一半的实验室设在美国,2013年微软研究院还将在巴西里约热内卢设立创新中心,这将是其在南半球设立的第一个实验室。

微软研究院的一大特色是它会在微软每一个开展业务的地区,与当地的学术团体紧密合作,提供更加本地化的技术开发。微软研究院正开展着技术领域内规模最庞大的博士生实习项目,每年都会有1 000多名博士实习生在微软研究院的一些部门里参与研究工作。研究生在微软研究院的累计工作时间超过了世界上任何其他学术机构。

微软研究院贡献了微软公司大约四分之一的专利,而且从一定意义上讲,它们是最有价值的,因为它们是真正的基于科学的专利。

微软亚洲研究院多年来一直将自然用户界面(NUI)作为核心研究方向之一,并坚信更加自然和人性化的用户界面将促成更好的计算体验。借助新型的传感器、更强大的计算能力、大数据以及机器学习,人类将能够通过语音、手势和触摸等方式与计算系统进行互动,而计算系统也能够更好地理解我们的所做、所需和所想。

――洪小文 微软亚洲研究院院长

高品质视频稳定器

来源:微软亚洲研究院

拍摄视频时的抖动问题是影响画面质量和观感的一个非常重要的因素,传统的摄像机为了解决这个问题往往需要使用专业的三脚架或轨道以及影像传感器防抖或镜头防抖等各种光学防抖技术。但是对于普通的手机等光学防抖技术缺失的产品来说,进行手持视频拍摄时往往很难得到较好的视频画面。

而高品质视频稳定技术则尝试从算法和软件层面解决这一问题,该技术将整个视频视作一个连续的图片帧序列,通过算法寻找每个序列中相对处于静态的物体,比如视频中的墙、大树等。找到这些物体之后,再从这些物体上寻找鲜明的特征点,并根据这些特征点综合计算出相机的运动模型。知道相机的运动模型后就可以判断出哪一帧因为抖动出现了错位,根据错位的数据即可对齐所有图像帧以消除画面的抖动。画面对齐后图像的边缘将出现错位,此时需要裁切掉10%~15%的画面边缘并同时进行画面拉伸,以保证视频尺寸不变。这样操作后大部分因手持拍摄引发的画面抖动问题将都被解决。而且该技术还能自动判断拍摄状况并只在必要的时候工作,例如在快速转场时不会进行消除抖动的操作。由于是基于特征点的连续模型算法,因此该技术还能消除CMOS影像传感器逐行扫描所引发的果冻效应(Rolling Shutter Effect)。从计算效率上讲,该技术将可以在现有主流手持设备上应用,它可以在拍摄时播放消除抖动的预览效果,在选择保存拍摄视频时进行最终的消除抖动计算。

用身体创建3D虚拟人物

来源:微软亚洲研究院

未来的游戏将更强调沉浸式的体验,例如现在的Xbox 360和Kinect玩家可以通过选择部件或自拍的方式创建自己的虚拟人物。这些方法目前还不能让玩家纯粹凭借想象而随心所欲地创作任意形式的游戏人物,然而微软研究院的BodyAvatar技术可以让玩家在Kinect摄像头前面用自己的肢体作为一种输入手段,绘制任何形状的虚拟3D人物。该技术的具体使用流程十分简单,首先玩家站在Kinect之前创建以自己身体为基本原型的3D形体,之后通过滑动手臂的方式在自己的周边绘制出轨迹,系统会根据运动轨迹自动在3D虚拟人物中添加相应的内容。例如在肚子前边画一个弧线就可能给虚拟人物绘制一个大肚子。而且用户还可以选择将3D虚拟人物与自身骨骼信息建立关联,这样3D虚拟人物的各项动作将更加符合逻辑。这项技术能彻底释放Kinect玩家的创造力,让他们无需掌握任何3D建模工具的知识,就可以把自己最狂野的想象变成现实。

实时3D场景捕获与重建

来源:微软雷德蒙研究院

这项技术使用的包括8个固定在特定角度的高分辨率2D摄像头和1个带有显示卡GPU加速功能的高性能电脑。通过这套造价并不昂贵的系统,该技术实现了实时的3D人物生成。用户只要进入现实搭建好的拍摄棚,即位于8个2D摄像头中央,就能够马上获得自己的3D头像。这项技术的关键点在于它利用已知特定角度摄像头拍摄的图片进行组合计算,判断在拍摄的三维空间中的某一个点是否有三维像素存在(Voxels),三维像素可以被理解成三维空间中非常小的一个立方体,将所有判断存在的立方体组合起来即可获得人物头像的表面轮廓。这样的做法大幅降低了计算量,使普通PC的GPU也可以胜任这样的计算工作,而且系统还可以直接将用摄像头拍摄的图像画面做成纹理贴图,贴在3D的轮廓上。与以往的技术相比,该技术在展现头发细节等方面有了明显的进步。

教会Kinect读懂手势

来源:微软剑桥研究院

Kinect的标准SDK中已经能识别用户的骨骼以及各种身体动作,这让我们可以用自己的身体姿态来控制游戏和应用。

但是很多时候我们仍旧需要Kinect识别更多细节的身体动作,以实现更精确的控制,例如识别用户的手部动作。而教会Kinect读懂手势的技术则主要用于解决跟踪手部动作的问题。该技术在开发过程中分析了大量的人手图像,利用机器学习技术分析出了手部的特征,进而训练Kinect能够准确地找到面前的手在那里,并可以进行跟踪,同时还可以判断出手处于张开或握紧的状态。

值得一提的是,该技术对手部的辨识度很高,无论是手心、手背,还是将手摆成特定角度,都基本上可以完成正确的识别。目前这项技术已经被加入到了最新的Windows版Kinect SDK中。

用便携式设备进行3D重建

来源:微软亚洲研究院

Kinect不仅给用户提供了更优质的游戏体验,围绕该设备的应用开发也在热烈地展开,但是Kinect的普及率和便携性仍旧会限制其应用的范围。为此微软研究院提出了用智能手机、平板电脑上的普通2D摄像头进行3D重建的技术。该技术目前有两个演示原型,其一是使用智能手机,用户只要在应用界面的提示下,围绕物体拍上一圈照片,即可生成该物体的3D模型;其二是使用平板电脑或PC摄像头拍摄转盘上旋转的物体,在物体旋转一圈后同样可以生成3D模型。无论哪种演示模型都采用了相同的技术原理,计算主要分为两个步骤:图像获取和三维重建。图像获取主要是利用物体上的局部特征来计算连续帧之间的角度变化,利用这一信息可以取得覆盖物体整个表面的多视角图像。三维重建主要基于获取的多视角图像,利用立体视觉技术恢复出图像的深度信息,再对多个深度图像进行融合即可计算出物体的3D虚拟模型。该技术会将拍摄的图片上传到云端服务器进行计算,十几秒之后计算生成的3D虚拟模型即可被传送到移动设备中。这项技术将拥有非常广泛的应用前景,如未来的在线销售系统可以拍摄并展示物体的3D外观,用户也可以将身边的物体扫描成3D虚拟物体并使用3D打印机打印出来。

用自由草图数据讲故事

来源:微软雷德蒙研究院

传统的演示项目通常需要使用ppt进行展示,但是无论是制作的复杂程度,还是表现的生动性都仍旧存在问题,而用自由草图数据讲故事则提供了一种完全不同的交互教学或交流方式。这种技术极具表现力,演讲者只需在触摸屏上划出简单的手势,系统就会自动在屏幕上绘制需要的图形。例如在屏幕上划出一个“L”型的手势,屏幕上就会显示后台关联数据的柱状图,而在柱状图上划一条波浪线,柱状图即可变成折线图。使用类似的方式用户还可以以地图等方式生动地展现数据。该系统提供了一个后台编辑工具,用户可以轻松地预设一些信息或绘制一些特殊样式的图表。

实时业务元数据提取

来源:微软雷德蒙研究院

手机等智能移动终端将带来井喷式的庞大数据,这些数据经过分析能够解决当前的很多问题。微软研究院的实时业务元数据提取技术就向我们展示了这种令人期待的未来。现在我们已习惯登录餐饮网站查询某个餐馆的评价,但是这样的评价信息人为因素较多,而且更新往往不够及时。为了解决这样的问题,实时业务元数据提取技术尝试在用户进入每一个商店时通过手机的麦克风抓取环境音,并通过算法来推断商家的上客率、正在播放的歌曲、音乐和噪音的音量水平等。被提取的元数据既可以作为店家信息显示在搜索结果中,也可以经过处理提供更进一步的查询功能,例如“安静地播放钢琴曲的牛排馆”。

学习从此不枯燥

来源:微软硅谷研究院

如何让学生更有兴致、更高效地学习是当前整个教育系统面临的一个问题。而大部分学生往往对视频资源更感兴趣,因此微软研究院开始尝试通过数据挖掘的方式来建立日常教科书与教学视频之间的关联。在用教育视频对教材进行强化的系统中不同格式的教科书都可以被导入,教科书中的关键字会被重点标明。而在学生阅读到特定的内容时,教科书的旁边会显示关联的视频内容,这些视频内容都可以从丰富、免费、高品质的网络教育视频中挖掘出来。这一系统还有一个比较出众的地方在于,它可以运行在几百元的低性能平板电脑设备上。

里克?雷斯特

微软公司首席研究官

美国国家工程院院士

我们做研究并不是为了创造某个特定的产品或为了将某个特定的技术转换成产品。我们做研究的目的是为了不断推动最先进技术的发展,开发新的想法,学习新的理念,创造新的东西。如果把研究和产品联系的太紧密,则会减少创新的机会和研究的价值。所以我们要十分谨慎,管理技术研发并不是件容易的事情。

微软研究院从事的是基础研究,我们可以持续吸引来自中国、美国、欧洲或者印度的顶尖人才,这是因为我们给他们提供了其他地方无法提供的机会,让他们进行基础研究,同时他们还有机会使研究产品化,最终产生影响。

未来Deep Learning(深度学习)和深度神经网络相关的技术会产生很多激动人心的应用。我想计算机科学已经迎来了一个新的时代,很多之前根本没法做到的事情现在可以做到了。未来5年内,语音识别技术会发展到类似真正人类一样的水平。物体识别技术也会取得很大的进步,它会改变人们使用照相机的方式。这些技术会改变人们生产制造产品的方式,也将会在很大程度上提高工厂的效率,减少在农场工作的工人数量等等。现在已经取得了一些进展,将来我们可以做得更好。

周以真

微软公司副总裁

微软研究院海外负责人

我会用这样几个词来形容微软亚洲研究院:精力充沛、热情、兴奋、雄心勃勃。微软亚洲研究院的研究员对自己的工作都很有激情,他们想告诉我他们在做什么、他们的工作为什么很重要、他们是如何解决问题的、他们是如何影响产品部门的工作的、他们是如何同其他研究人员合作的。从微软亚洲研究院创立之初,到15年后的今天,微软亚洲研究院对中国基础研究的本质变化和质量提升都做出了贡献,尤其是在计算机科学领域。我认为亚洲研究院在发展成为世界一流的研究机构的同时,也对中国的计算机科学和工程研究起到了推动作用。

我觉得微软亚洲研究院有两大特点。第一,他们与产品部门实现了非常高效的合作,并在过去的几年中实现了很多技术向产品的转移。他们与产品部门齐头并进,产品部门发现问题的时候,亚洲研究院就会及时地提供解决方案。第二,微软亚洲研究院与包括中国大陆地区、中国香港、中国台湾和新加坡等整个亚太地区的各大院校保持着密切的联系,从学生实习项目到与大学科研人员的交流等方面都进行了很好的合作。因此,微软亚洲研究院带来的影响不仅仅局限在北京,也不止在中国地区。

我很赞赏微软基础前沿研究的理念,不仅仅着眼于当前研发新产品的需求,更着眼于推动计算机技术的发展,以及创造和把握微软的未来。基础研究是一个国家、一个民族国际竞争力的源泉,也是一个研究机构、世界级企业竞争力的根本。一个世界级公司要在业务主要领域具备强大的基础前沿研究能力,才能长盛不衰。

――潘教峰 中国科学院副秘书长

“大数据时代的到来”是人类社会进入深度信息化的必然趋势,而“更人性化的自然界面”是这种社会深度信息化对计算机技术的必然要求,也是大数据时代核心技术的标志性重要组成部分。而像微软研究院这样从事基础研究的行为充满意义,它将人们的奇思妙想转变为严肃、坚实的科学理论,为产品的研发提供可行的技术路线与有效的结构框架。

――李未 北京航空航天大学教授、中国科学院院士

上一篇:总统也没有理由 下一篇:城市边缘区的土地规划和管理问题