关键词:智力人工智能语言
人们普遍认为智力是可以学习、培养和发展的,这种观点便蕴含了对智力演化过程的认识。汉语的“智”是“知”的后起字,本义指聪明、智力强,如“然后智生于忧患”(《荀子》引《孟子》),“智术浅短”(三国志・诸葛亮传),“少年智则国智”(梁启超《少年中国说》)。在1921年举行的学术讨论会上关于智力定义的讨论中。美国心理学家刘易斯・特曼(Lewis M.Terman)强调抽象思考的能力,但是,另一位美国心理学家爱德华・桑岱柯(EdwardL.Thomdike)则认为学习和对问题给出优秀答案的能力才是智力;瑞士心理学家让・皮亚杰(JearlPiaget)认为智力是当你不知道怎么办时动用的东西,他还区分了智力发展的两种基本过程和四个不同阶段,其观点和理论影响深远:而在1986年的讨论中,与会心理学家们则一致认为,对环境的适应能力是理解智力的本质和用途的关键(EncyelopadiaBritannica,2009)。当代学界对智力的这种认识与汉语的“急中生智”这一成语非常合拍。如出一辙.都突出了智力的创造性、动态发展性及其发生的情景。客厅的茶几上摆放一个正在沸腾的火锅,一个两、三岁小孩走过去用筷子而不是用手到锅里面去挑肉吃,或者想要锁在抽屉里的巧克力翻箱倒柜地去找钥匙而不是用拳头或杯子砸抽屉都是动用智力的结果,都是聪明的和具备值得令人称赞的智力的,我们对这小孩的评价是聪明;一个八岁的小孩也这样做,我们认为是正常。类似的。一个四、五岁的小孩能够脱口而出三七二十一之类的数学题,我们也一般认为那小孩的智商高、聪明;但是,一个十一、二岁的孩子再有如此表现,只能说是还不算笨。
智力应该是和生物肌体的进化同时进行的,因为缺乏远古资料.这里我们不打算去猜测和讨论猿人、古人或今人智力的进化历史过程。结合现代脑神经科学的研究成果,我们只从关于儿童智力发展的现有资料及心理学家们的认识变化和讨论人手,来考察人类智力的演化,并在此基础上,探讨人工智能的发展潜势。
人们智力的物质基础主要在于人脑而不在于心,这已经是现代人的基本共识。人的身体生长发育一般经过十几年的时间,基本形体和部件数量在出生时就决定了(后天的手术或意外事故不算),外部形体的发育情况有目共睹.但大脑的情况有点特殊。这里我们不再复述人脑中可能代表不同进化阶段的三重构造,也不讨论对立统一的左右半球和其中不太确定的具体任务功能分区;大脑的主要功能是思维,因此我们通过研究思维的形成过程和脑神经细胞层面活动的关系,来探讨智力的演化过程。
大脑的基本组织结构是神经元细胞,人脑所呈现的瓷白色是其脂肪的颜色,简称为白质,这种脂肪叫“髓磷脂”,它们包裹着神经细胞纤长的突起部分,使之绝缘。突起的部分被称为“轴突”,和电线相似,把神经元的输出传送到附近或远处的目标。白质实际上是走向各处的神经纤维的集合,就像我们在电讯中心大楼的地下室所能见到的成捆电缆一样,只不过颜色和体积不同。脑的主体正是这些绝缘纤维,它们把实现重要功能的脑的各部分相互连接起来。在轴突的一端是球形、膨大的神经元的细胞体,包含细胞核。细胞日常运转和维持所用的DNA模版即在其中。有许多树状分支从细胞体伸展出来,称为树突。神经元的这一部分没有白色的髓磷脂,因此它们大量集合起来便呈灰色,被称为灰质。神经元轴突的另一端通常与一个下游神经元的树突相接触,它们之间的狭小缝隙称为突触。上游神经元释放微量的神经递质至突触,然后扩散至下游神经元的膜,打开某些膜上的通道。每个神经元都是一个典型的计算单元,能把几千个输入的影响综合起来。具有相似功能的神经元倾向于在皮层中作垂直的排列,形成柱形结构,这被称为皮层柱,贯穿皮层的大多数层次。大约100个神经元组成一个环绕锥体神经元顶树突的微型柱,直径约为30微米(如一根纤细的发丝),约100个微型柱组成一个大型柱,一个皮层区有100x100个大型柱,大脑的两个半球共有104个皮层区。这些就是我们思想和智力的物质基础,简单中蕴含着复杂。初生婴儿的大脑重量大约为400克,是成年人脑重的30%。虽然大脑在生长过程中神经元的体积在扩大,联结(树突、轴突和突触)的数目不断增加,但是神经元的总数目基本不变。大脑结构的发育和工作方式是由基因决定的,突触的数目和信息种类则完全受环境的影响。
大脑中存在类似DNA碱基复制的复制机制并且存在复制竞争。锥体神经元释放一种兴奋性神经递质谷氨酸。可以激活NMDA通道.产生长时程增强(LPT,即long-termpotentiation)现象,是短期记忆的最佳基础,它为真正持久的突触结构变化的形成提供骨架,这些变化是永久性“印记”,有助于长期不用的时空模式的重新建立。复制竞争存在于神经激活网络的同步化倾向中,记忆痕迹是以分布的方式存贮的.并没有一个位点对于其复苏是关键性的,变异同时存在,使竞争成为可能,它决定着什么模式能最佳地与连接特性发生共鸣。
人脑的这种活动方式意味着人的思维和智力也是进化的并且也存在着达尔文过程。达尔文主义的主要内容是大量繁殖、生存竞争、遗传、变异和适者生存。卡尔文教授认为思维就是瞬息间的达尔文过程,人的大脑具备达尔文过程的所有要素:模式、复本、模式的持续变化、复制竞争、环境的影响、模式的繁殖。各种事物记忆构成大脑细胞神经活动的时空模式,暂时的印记摹写在永久的印记之上.特定时空模式的重复会留下突触强度的改变.这在神经生理学中被称为“易化”和“长时程增强”。真正持续保存的印记是个体特异的,甚至对每个同卵双生子也是如此。通过对思维的物质基础――大脑的研究分析能够比较客观形象地让我们了解智力产生和演化的过程。
我们的思维活动是动态的达尔文过程,复制竞争的临时赢家成为我们意识的良好候选者。新皮层的达尔文机制可以解释思想如何“自上而下”地影射于神经元群和思想如何“自下而上”地由那些看起来是杂乱无章的神经元集群产生的。这种对智力的解释可以为我们洞察各种生命的智力所循的途径提供启示,包括人工智能(AI)、增强动物、人类甚至地外生命。
我们为适应环境而表现出来的智力时时都在发生:求学者学习掌握通过某课程所需的材料,大夫根据了解的病情对某种未知病症的病人进行治疗,艺术家修改一项作品使其看起来更加协调悦目,等等。面对纷繁多姿的智力表现形式.我们渴望了解的是它的本质。心理学家阿瑟・詹森(ArthurJensen)指出影响智力测试的有两个最主要因素:速度和你在头脑中能同时应付事项的数 目(例如你在一定的时间内能回答多少问题,类比问题时通常要在头脑中同时保持多个概念并比较)。这种认识让我们很自然地联想到当前对计算机运行速度和多功能的要求。研究智力测验试题的编制者们给我们列出的智力测试的项目清单:机械记忆力、数字计算能力、归纳推理、演绎推理、感知速度、语言表达的流畅性、言辞理解力、空间能力等诸如此类的事物;我们发现智力是由许多可以分解出来的能力构成的,它并不是某种单一的因素。
我们知道。分解出的所有能力并不能通过简单地叠加而等于智力。很多自闭症患者都在诸如机械记忆或特定事物的感知速度等方面表现超强,但是在传统观念上往往不被认为是聪明的。而且,行为越是复杂和有目的性,往往越不被认为是智力的表现。智力的最佳标志经常是一些解决比较简单而又不易预料的问题的情况,那体现的是灵活性和创造性。当然,“智力”是由许多东西组成的复合物,它与人们的多种心智能力有关,甚至包括预测、想象和幻想,它们是我们“意识”活动的内容或部分成果。美国心理学家丹尼尔-高曼(DanielColeman)还提出,人类认识自己情绪的能力(即情商)也很重要。
在计算机和自动化相关领域的发展上,也存在着模拟人脑内部智能机制的AI学派和模拟人与环境交流的CHI学派。真正的人造智能形式的出现需要克服至少三个难点:与各种动物组成的生态系统相顺应、价值问题和人类对其潜在挑战的态度。人工智能的特定程式可能产生有智能的机器人,逐渐更新换代的软件通用型计算机将会获得智力性意识,诸如可驾驭的注意力、复述、语言能力、想象、下意识信息处理、对未来的策划、战略上的决策和自言自语。这些只是当前计算机技术、人工智能、神经生理学及人脑神经生物学已有趋势的推测。艾伦・图灵(Alan M.Turing)对智能机器的描述为人们发展人工智能提供了可操作的途径,但是,从知识中提炼智慧肯定要比从资料中提炼知识需要更长的时间和更加复杂些。
在某种程度上,支持者与反对者之间的区别就是时间期限。比如,未来学家、发明家雷蒙德・库兹韦尔就认为20年智能就能研发出真正接近人类智力水平的人工智能。而我认为这个过程起码现在,几乎不到一个月就有一款最新的人工智能产品问世,而我们在开发人类大脑的道路上已经停滞不前了人工智能的威胁格力・马库斯/ 文 李雨蒙/ 译需要20 年,尤其要考虑到创造常识(正常思维)的困难,发明人工智能的挑战,还有软件技术,都比库兹韦尔预测的要困难得多。
然而,从今往后的一个世纪里,没有人会在意人工智能的发展需要多久,只会关心将会出现哪些先进的人工智能。或许在这个世纪末,人工智能就会变得比人类更加智慧――不仅可以解决国际象棋、琐碎小事等等,基本可以处理所有的事物,无论从数学、工厂还是科学和医药。还剩下一小部分创造类工作留给人类,比如演员,作家或是其他创意类工作。最终的电脑系统可以完成自我编程,获取大量的最新信息。我们这些“碳基生物”的模糊印象,他们能够在分分钟就分析处理完成,也不需要长时间的睡眠或休息。
对于支持者来说,人工智能的未来充满希望。库兹韦尔就曾撰文发表自己一个大胆的设想,就是人类与智能机器结合,将人类的灵魂上传到人工智能中,使我们的灵魂永生;彼得・迪亚芒蒂斯则认为人工智能是开启“富裕时代”,拥有富足食物、水源、消费工具的重要因素。不过,反对者像埃里克・布林约尔松和我很担忧机器人职业化和人工智能带来的隐患,即使不去考虑高级人工智能对劳动力市场的影响,功能强大的智能机器也会威胁人类的生活,与人类争夺有限的资源。
大多数人把这种担心看作是科幻小说里的蠢话――像《终结者》和《黑客帝国》这类。在一定程度上,我们需要未来很长一段时间做好打算,我们要担心小行星会撞地球,化石燃料产量下降,全球变暖等问题,而不用担心机器人问题。可是,詹姆斯・巴雷特的黑暗系新书《我们的最终发明:人工智能和人类时代的终结》,描述了一种严峻的情况,我们至少应该有所思考。
如果机器最终取代了人类――正如在人工智能领域工作的人所坚信的那样,真正的问题在于价值观:我们如何把价值观输入机器中,当它们的价值观与我们的价值观发生了很大的冲突时,我们该如何和这些机器协商呢?牛津的哲学家尼克・博斯特罗认为:我们不能乐观地假设,超级智能一定会分享人类的智慧和智能发展形成的价值观――对科学的求知欲,对他人的关心和仁慈,精神启发和沉思,克制物质占有欲,高雅的文化品位,对感受简单生活的快乐,谦虚无私等等。或许通过专门的训练,能够创造出拥有这些价值观的超级智能,或是珍惜人类财富和高尚道德的超级智能,或是设计者想要它拥有一些复杂目标的智能。这是可能的――可能从技术上说更简单――打造一个能够把最终价值都放在计算圆周率小数上的超级智能。
英国控制论学者凯文・沃里克曾问道:“当机器不在我们人类所处的思维次元中思考时,你如何跟它理论,如何与它做交易,如何能明白它的想法?”
如果说巴雷特黑暗系理论有漏洞的话,那就是他未经思考就提出的假设:如果机器人聪明到可以下棋,那它可能也会“想要制造宇宙飞船”――在任何足够复杂,有目标驱动的系统中都是天生具有自我保护和获取资源的本能。现在大部分机器都非常先进,比如,IBM公司的深蓝系列电脑,但是目前它们还没有显示出想要获得资源的兴趣。
可是,在我们感到沾沾自喜,确定无需担心时,别忘了有一点非常重要:我们要意识到随着机器越来越聪明,它们的目标也是会变化的。一旦电脑能够有效地重新给自己编程,成功地提升自己的性能,达到所谓的“技术奇点”或“智能爆炸”,那么我们就不能忽视机器在与人类抢夺资源和自我保护的较量中会有胜过人类的风险。
在巴雷特书中,最鲜明的观点之一是来源于著名的系列人工智能企业家丹尼・希利斯,他把即将到来的转变比作生物进化史上最重大的转变之一:“我们现在达到的高度就像是一个单细胞有机体转变为多细胞有机体的高度。我们是变形虫,我们不清楚自己在创造的到底是个什么东西。”
无论怎样,人工智能的进步已经达到了我们从未想过的危险。德雷塞尔大学的电脑风险专家加格跟我说:随着因特网时代的到来和大数据时代的爆炸,“人工智能已经收集了有关我们的许多数据,并输入计算程序,做出预测”,“ 我们无法知道数据被收集的时间,没法保证收集的数据信息是准确的,没法更新信息,或提供必要的信息背景”。甚至在20 年前,几乎没有人会预想到这种风险。前方还会有怎样的危险呢?没有人真的知道,但是巴雷特提出的问题却值得我们思考。
人类将在与机器的共生共存中,开启一个新的时代?
近年来,人工智能已经从科学的神坛走入了经济的大潮,成为了各大公司争相竞逐的新战场。
在中国,BAT纷纷在人工智能领域布局:李彦宏声称“互联网的未来在于人工智能”,百度的百度大脑、无人驾驶汽车初具规模;腾讯发挥微信、QQ的强大优势,在语音识别、图像识别、人脸支付领域发力;阿里巴巴则以阿里云为基础,将人工智能的基础――数据生态系统做大。而国外的谷歌、微软、FACEBOOK、IBM等巨头,也在人工智能领域全力推进,从当年IBM的深蓝到今天的阿尔法狗,仅仅是巨头们在人工智能领域尝试的冰山一角。 什么是人工智能
尽管随着人机大战,人工智能已经成为了一个耳熟能详的热词,但究竟什么是人工智能,却在行业内都难以有一个确定的定义。其实简单地说人工智能就是对人的意识、思维过程的模拟,但之所以人工智能的定义难以确认,关键在于对“智能”的定义难以确认,在人工智能领域经常有一句话说:我们连人的智能是什么都不知道,何谈人工智能?因此目前大家普遍认可的还是由约翰・麦卡锡(John Mccarthy)在1956年的达特矛斯会议(Dartmouth Comference)上提出的:人工智能就是要让机器的行为看起来就像是人所表现出的智能行为一样。简单地说,如果说机器人是要在完成人类四肢的工作,那么人工智能则是要完成人类大脑的工作。
人工智能为什么这么火
其实人工智能早在60年前就被正式提出,几十年来也一直在飞速发展,但似乎在过去的日子,普通人更多地是通过《终结者》、《我,机器人》等科幻电影了解到人工智能,但为什么今天人工智能突然成为了大家关注的焦点呢?来自微软研究院的芮勇认为,除了这些年所谓算法的演进和提升外,几个物质方面因素的发展也将人工智能的应用成为了可能。首先在于背后计算能力的飞速发展。人工智能背后需要有强大的计算能力的支撑,我们看到是阿尔法狗击败了李世石,其实阿尔法狗只是一个程序,在背后则是强大的超级计算机的运算。据中国最大的超级计算机制造者――浪潮公司的科学家刘军介绍,目前,超级计算机的性能发展迅速,一台超级计算机已经能够达到一百万台电脑的运算能力,因此,在计算能力上将人工智能需要的超级运算成为可能。其次,人工智能需要对海量的数据进行分析,就必须拥有海量的数据,而几十年的互联网的发展,让人类社会中海量数据的产生于收集成为了可能。第三,4G技术的普及,让数据随时随地的链接已经成为常态,也让大量数据的传输成为可能,使用场景的便利化,给人工智能走进日常生活提供了多种可能。如果说人工智能原来是一粒种子,但阳光、温度、湿度等外在条件还未具备,因此一直蛰伏在科学家的研究室里,那么今天,正是人工智能即将破土而出的时刻。
既然人工智能时代已经到来,那么无论是科学层面、经济层面,还是我们生活中的人工智能三大猜想就无可回避地出现在我们的面前,让我们看看中外人工智能专家将给出什么样的答案。 人工智能是否会比人聪明?
在硅谷的美国宇航局艾姆士研究中心,有一所一出生就声名显赫的大学―“奇点大学”。其校长雷・库兹韦尔认为,伴随生物基因、纳米、机器人技术几何级的加速度发展,2045年左右,人工智能将来到一个“奇点”,跨越这个临界点,人工智能将超越人类智慧,人们需要重新审视自己与机器的关系。人类将在与机器的共生共存中,开启一个新的时代。那么,人工智能真的将比人类聪明吗?
对于这个问题,科大讯飞董事长刘庆峰坚决认为,人工智能一定能够超越人类,因为通过互联网万物互联,可以把所有人类的智慧汇聚到后台,通过深度神经网络来展现,所以人工智能到时候不是跟单个人比,它是把所有人的智慧汇聚在后台,来跟单个人比,所以它在绝大部分场合下会表现得比人类更聪明。微软亚洲研究院院长洪小文则认为人工智能在大多数情况下比人类更具有能力,但它仍旧无法与人类的智能相比,因为,人类最可贵的能力在于创造力,而这一点上人工智能无法与人类抗衡。被称为中国人工智能布道者的搜狗创始人王小川指出,原来我们都认为人工智能缺乏创造力,但现在人工智能的发展已经否定了这一点。拿阿尔法狗在人机大战中的表现来看,它的很多招法都是传统围棋理论所难以接受,对人类棋手而言匪夷所思的。因为以前是人类告诉机器方法该怎么做,到阿尔法狗的时候,人类开始不用告诉计算机方法,只告诉人工智能目标:就是要赢,这个方法和答案让它自己找。但即便如此,也不能认为机器能够比人聪明,因为必须要人类为人工智能设立一个目标,它才能够产生后面的学习。
所以对于人工智能而言,可以在很多时候轻松击败人类,但它仍受到两方面的限制,第一条是它只能从人类已有的各种各样的行为和判断的数据中去学习,创造不了人类没有经历过的全新的方向。第二是机器设计不了规则,必须由人来设立规则或者说是算法。 人工智能是否会取代人类?
当机器有了智能,自然而然就会让人们想到他与人类的关系,所以在《终结者》中出现了“审判日之战”,在《黑客帝国》中出现了人与MATRIX(矩阵)的对决,而科幻作家阿西莫夫则防患于未然地提出了“机器人三定律”,那么,人工智能的发展真的会取代人类吗?
小I机器人的创造者袁辉对此持悲观态度,他认为整个目前人类文明是在走向一个下滑的阶段,所以在这种阶段下面,人类最后会被终结,这可能是一个时间的问题。从本质上说,这是人类自己的问题,人类创造了人工智能这样的一个物种,这个物种与人类是和谐共存还是竞争,完全取决于人类的发展。而搜狗董事长王小川则预测当人类面对人工智能的时候,会与人工智能共同进化,人工智能将最终会成为人类的一部分,人工智能既会帮助人类,也会约束人类,二者将是一种合体的关系,最终人会变成新人类,会进化成新的物种。
科大讯飞董事长刘庆峰承认因为人工智能可以在后台汇聚人类的各种智慧,所以在很多的复杂的活动中可以超越人类,但是最终是被人类所管理和控制的。因为机器没法自己设定规则,所以它一定是在人类定的大规则下来为人类服务的。最后人和机器会相互耦合在一起,推动整个世界的进程。
其实,在人类发展的进程当中,每一个新技术的出现总会伴随着争议、误解甚至是担忧或者是恐惧,在十九世纪工业革命的时候,英国的产业工人担心机器抢了自己的工作,于是纷纷去烧机器、毁机器;两百年前,在美国大约70%的人口都是农业人口,而大型机器和生产线出现后,几乎抢夺了所有的农业人口的工作。但现在美国只有1%的农业人口,而那69%的人并没有因此而失去他们的生活或者是工作,反而在机器创造的更多的新领域创造了新的工作,寻找到了新的生活。相比那个时候,人类进化了,因此人类就是在不断认知自我的过程当中,去拥抱越来越美好的新生活。 人机大PK
尽管有预言人工智能将逐渐地接管人类的种种职业,但那毕竟是未来,现在,人工智能在一些常见的领域到底达到了什么样的水准?让我们看看人机在几个职业上的PK。
项目:语音识别
规则:由人工智能和人类速录师同时听一段声音,并将其转化为汉字,看谁的准确率高。
结果:
1、速度:双方速度几乎一样,都是在语音播放的同时完成了录入。
2、准确率:准确率都达到99%以上。
应用场景:目前,语音技术主要应用领域是:导航和音响系统、智能可穿戴设备、制造业、智能家居、电信领域、医疗领域、教育等领域。预计在2017年以前,全球语音识别市场将达到1330亿美元。
视角延伸
1、在嘈杂的环境,多人对话的情况下,人工智能尚缺乏足够的辨别能力。
2、对于方言,人工智能的准确率明显降低,需要专门的数据库予以支撑。
3、人工智能的语音识别已经拓展到多种语言,已经初步达成了实时翻译功能。
4、在未来万物互联时代,语音识别将成为人机对话、打通各个平台的接口。
项目:驾驶
规则:无人驾驶汽车在高峰期于北京东三环行驶,看行驶的平稳度与安全性;无人驾驶汽车在专业赛车场进行18米S弯绕桩跑,就是赛车手考赛车水平的时候,会有这一段考试,从头到尾如果是人驾驶一般要14分钟,用智能机器人可以做到13分钟多一点,就是说比赛车手还少一点时间。
结果:
1、实地无人驾驶顺利完成,放置于车顶的打火机,硬币等物件没有掉落。
2、专业赛车场进行的18米S弯绕桩跑,人驾驶一般要14分钟,人工智能可以做到13分钟。
应用场景:当前,世界大型汽车制造商都在致力研究无人驾驶汽车技术。该技术在减少拥堵和安全隐患等方面大有作为。根据业内预测到2020年,无人驾驶汽车市场将达到6亿美元。
视角延伸
1、人工智能还不能处理很多复杂的情况,在技术上仍然具有很大挑战。
2、无人驾驶的目标第一是解决因为人为的因素造成的安全性;其次能够将人类从驾驶的烦琐中解脱出来。
3、专家预测,未来五年无人驾驶的发展方向将是“增强驾驶”,即汽车同时具有人类驾驶与无人驾驶功能并存,人与车的关系就如同当年人与马的关系一样。
4、无人驾驶设备能否小型化将成为无人驾驶能否走向应用的一大门槛。
项目:图像识别
规则:由人工智能和人类同时识别三张明星在不同化妆、衣物时的图像,看谁能准确地认出;同时识别三种长得相似的普通人的照片,看是否能够辨认出这是否是同一个人。
结果:
第一次辨认结果人工智能胜过了人类。
第二次因为有一张图片面部有头发遮挡,人工智能表示无法识别。
应用场景:目前,图象识别技术主要应用在:导航、遥感图象识别、天气预报、环境检测、通信、军事和公安刑侦、临床诊断和病理研究等领域。
视角延伸
1、使用图像识别技术,在大量摄像头拍摄的画面中无论要找罪犯还是要找失踪的人口,效率将会比人类识别高出很多。
2、跟人脸识别和语音识别相结合起来,将极大地提高对个人身份的辨识度,在金融支付领域具有广阔前景。
3、图像识别将进一步发展成表情识别,可以在第一时间感知人类情绪,并采取相应措施。如在驾驶中如果智能摄像头能够感知司机情绪不稳定,可以提前采取措施,减少事故发生可能性。 观点大碰撞
对于人工智能,过去很多人定义过,它要有比较高的自感知能力、自主决策和控制能力、对安全和意外的自动预警和防范处理能力等,它要能在较少人为干预的条件下完成工作和服务。但要强调的是未来人工智能跟过去不同的地方,未来的人工智能一定是终端跟云端协同创新实现的智能控制与服务的。有了网络以后,人工智能就不仅是靠机器内的软件硬件系统来操纵,还可以在使用终端和云端之间实施交互协同来实现,它的水平和能力会远远超过历史上单部机器的智能行为。其实阿尔法狗也有很多东西是在云端计算,而不在终端。所以这是一个未来的方向。
人工智能技术可应用的领域是非常广泛的,可以说是无处不在。它可以应用在生产制造业,还可以应用在各种服务领域。比如金融服务、医疗服务等都可以用人工智能技术;学习方面,也可以用来提升学习效率;还有农业领域,可以借助人工智能技术判断施什么样的肥料、怎么样防治病虫害等,快到收获季节还可以通过人工智能技术预测预判市场销售,这对农产品的行销也都会有大的帮助。
“中国制造2025”提出创新驱动、质量为先、绿色发展、结构优化、人才为本,智能制造是核心。制造经历过不同的时代,第一次工业革命以后是机械制造时代;第二次工业革命以后是机电结合了起来;后工业阶段,上世纪80年代以后又加了电子、机械电子一体化;而信息网络出现以后,现在和未来的制造是网络智能的时代的网络协同智能制造,制造过程、运行服务过程都将数字化、网络化、智能化,这是制造业发展的方向和技术创新的核心。
邬贺铨:中国在人工智能应用方面走得很快
人工智能研究的起步,一般被认为是在20世纪50年代,那时候中国还没有开始研究。不过,人工智能在前50年里还停留在科学家的圈子里,没有走向应用。这些年中国人工智能的研究跟其他新生领域的研究一样,取得一些好的成果,但是总体上与国外还是有差距的,在一些有影响的文章发表、人工智能原创的技术,包括支撑人工智能的产业等方面我们还有差距。
不过,应该说中国的人工智能在个别领域做的还是很不错的。比如说,科大讯飞在中文的语音识别上是领先的,百度、阿里、腾讯也在关注人工智能,不但自己在培养专家,也从海外引入一些高端人才,努力缩短我们与国外的差距。
中国机器人也做的不错,严格来说,我们机器人是广义的机器人,传统讲的机器人是工业机器人。我们的机器人产品以面向社会消费应用为主,产能产量已经占到世界较大市场。沈阳自动化所和新松机器人等公司从事机器人研究很长时间了,他们在做工业的机器人,也取得了不少的成绩和应用。但是在大型生产线上,目前应用的工业机器人还是以国外产品为主。
中国在无人驾驶车的应用方面跟美国相比也不会差距很远。现在百度的无人驾驶车,按照现在的水平也有望在未来的一两年内应用了。不过,无人驾驶需要很多技术,而现在国产车内的车载电子系统还是进口的,如果说不能在汽车总线上突破,我们的无人驾驶车在核心技术上还是有不少差距。
总体来说,在人工智能的应用上中国走得很快,展望未来不仅会缩小与国际的差距,也会走在前面。中国正处于经济发展方式转变和两化融合的重要阶段,需要大量的生产自动化手段,中国的人工智能的市场非常大。
张潼:人工智能的核心技术就是让机器学习
现在企业界很多研究院,包括阿里、腾讯、滴滴、360等关心的都是机器学习的核心能力。总体来讲,一个是大数据,另外一个是对于大数据处理和加工的能力。把一个原材料变成你真正所需要的系统或者产品,这是它的能力。从机器学习的技术来讲,如何实现规模更大、创新还有实时更新的效果,这一系列的技术能力使得所有公司都非常感兴趣。
总体来讲,数据处理的核心能力就是机器学习能力,还有高性能计算。处理大数据也要有计算平台,最后是一系列应用,包括广告、无人车,包括其他行业的探索。
此外,现在的医疗有各个环节,其中一个环节和互联网紧密相连,当病人患病的时候,去医院之前往往会自己看看是什么毛病,会有自我诊断或者自我询查信息的过程,但是百度搜索信息不太足够,因为只能找到相关网页,并不直接相关。其他的一系列互联网公司也会有这样的平台去帮助查询者对接,像对接医生和对接专业的知识一样。
从我们的角度来讲,实际上可以利用人工智能的能力去做这种系统,这种系统有几个形式,比如说病人会用口语化的形式表达,医生比较专业,病人不知道很多专业名词。如何把口语化和专业知识对接需要设定自然语言的病症,这也是病人希望交流的形式。
从机器智能角度上要有交互、引导以及对话,另外还要把信息综合起来,这样会有更好的理解。如互联网+零售业,百度怎么和零售业相结合,这是研究院思考的问题。如果打通线上线下,就知道这些客户线上的行为和喜好,以帮助线下的商家找新客户。而利用机器学习建模技术把这些人的喜好或者类别分列出来。
如何理解大数据和人工智能的关系,大数据是它的源泉。世界上很多国家很重视收集数据的能力,因此也使得它在下一阶段将有大大提升。此外还有机器学习,AlphaGO、无人机就是例子,它的核心技术就是智能化,下一个十年也将会有更加细致的发展。人工智能会促进一系列的新技术成为可能,这种可能会推出新的产业。
Jim Lawton:机器人需要更加智能化
长时间以来,机器人只能在不变的工作环境下工作。我们需要为机器人定制适合的工作环境,这个安排在一些工厂行得通,但是大部分工厂的工作环境不一定能配合。
我们通过编程让机器人执行一些任务,机器人会按照设定好的程序工作,但这不是智能机器人。更加智能的机器人是这个行业重要的突破和创新。我们现在拥有更优秀的机器人――能够在不完美的环境下工作。操作任务自动化进程不断地在创新。此外,随着机器自主学习及深度学习等人工智能的进步,认知任务的变化也是日新月异。
人机协作将主要在两个方面发生变化。一方面,以往我们需要请专家为机器人编程,然后执行任务。现在则通过演示来培训机器人。在未来,人类员工将“告诉”机器人去做什么,机器人只需要“看”着去学,从人类那里学习,也可以从另一台机器人那里学习。另一方面,我们深信只有人类能自主工作。制造业的新趋势是结合传达实时遥测数据的机器人和能累积结构化和半结构化数据的软件数据平台,然后供人类理解及诠释信息、并且做出明智的决定以提升工作流程,促进持续创新。
因此来说,人类和机器人将并肩工作,共同解决问题,提升工作流程,并能一起处理更多的任务。操作任务和认知技术自动化相结合是制造业创新时代的必然趋势。
SEARI在去年11月成为Rethink Robotics在华首家分销合作伙伴。协作机器人是Rethink Robotics的核心优势,Rethink Robotics通过其智能协作型的机器人Baxter和Sawyer,可完成目前90%传统自动化方案不能完成的工作,从而不断革新制造业的生产方式。
协作机器人和传统的工业机器人有很大的区别。传统机器人对精准定位、速度、精度、刚性等方面有硬性要求,相对而言,易用性、操作灵活性及安全性正是协作机器人的优势,国内很多企业对两者的比较已经有一定的了解。
在过去几个月,我们的销售团队已经走访一百多家企业,向它们推广Rethink Robotics的方案,获得非常好的反响。但协作机器人真正进入中国市场还需要有一个磨合的过程,现在不少国内制造业的工厂都是几年前、甚至十多年前建好的,当时的厂房设计是按照人手操作的思路来设计的,完全没有把机器人的元素考虑在内。
举个例子,比如一个简单的加工工位,例如冲压工位,把部件拿在手里作业,完成冲压后拿走,但实际如果你让机器人在旧厂房的环境去抓取摆放,肯定是完成不了的。首先你得考虑上料的问题,人手上料是能随便从框里拿起再放下去的。但机器人去拿的话,你得用一个震动盘去震动,把材料按照一定规格摆放,机器人才能精准完成任务。
2016年,人工智能阿尔法狗与人类顶尖围棋棋手李世石的世纪大战,注定将载入人工智能发展史册。围棋这种比较小众的运动,在人工智能的推动下,瞬间成为耀眼的明星。随着人工智能攻克人类智慧领域最后的堡垒――最具创造性、最复杂的棋类运动,2016年已然成为人工智能爆发元年。
阿尔法狗与“围棋上帝”
刘宗凡:在阿尔法狗以4:1的比分战胜李世石后,被称为围棋第一人的天才棋手柯洁曾表示了他的不屑:“就算阿尔法狗战胜了李世石,但它赢不了我。”“来吧!管你是阿尔法狗还是阿尔法猫!我柯洁在棋上什么大风大浪没见过?让风暴再来得猛烈点吧! ”
从2016年12月29日晚起,在弈城网和野狐网出现的围棋高手“Master”――实际上就是阿尔法狗2.0,以摧枯拉朽的气势连胜人类高手60局,人类对手是中、日、韩三国围棋超一流高手,其中包括柯洁以及中国围棋泰斗聂卫平。在最顶尖的棋手一一败北的情况下,还是有人提出因为这次下的是快棋,人类在正式比赛中未尝没有机会击败不可一世的人工智能。到底柯洁约战阿尔法狗有没有胜机?阿尔法狗有弱点吗?阿尔法狗是不是“围棋上帝”?
邱元阳:我可以斩钉截铁地说,包括柯洁在内的所有人类选手,现在已经无法战胜阿尔法狗了。如果说柯洁和李世石的水平有点差距,这个差距是毫厘之间的,而人类和人工智能的差距,已经不可以用厘来计算了。幻想柯洁能战胜阿尔法狗的人,是对阿尔法狗算法不理解的人,认为阿尔法狗还停留在靠计算机超强的计算能力来战胜人类的深蓝的水平。其实,蒙特卡洛树搜索是建立在全局胜负基础上的判断,只要达到足够的训练量,阿尔法狗必定稳操胜券。
刘宗凡:既然说得如此肯定,但为什么在人机世纪大战中,李世石凭借被称为“神之一手”的第78手棋,在第四局中战胜了阿尔法狗?人类还能凭着天才的灵光一闪来战胜人工智能吗?
邱元阳:人机大战的第四局棋到底发生了什么,现在一直没有定论。谷歌团队的代表赛后第一时间称,对于电脑的突然失常,要回去研究数据、分析情况,当时没有人知道阿尔法狗发生了什么,现在也没有公布阿尔法狗失利的原因。甚至有人脑洞大开,认为是人工智能故意让了人类一局――如果真是这样,那阿尔法狗就具备了真正的意识,这才是令所有人害怕的!幸运的是,虽然我们还不知道这局棋阿尔法狗为什么发挥失常,但可以肯定阿尔法狗并不具备下棋之外的主观意识。可以肯定的是,人类的“神之一手”已然是绝唱。
刘宗凡:在特定的情况下,人类还有没有机会战胜人工智能?比如几个人群策群力合战人工智能?
倪俊杰:我认为这也是不可能的。这些顶尖棋手风格各异,缺乏合作的基础,无法实现1+1=2的结果,甚至无法达到1+1>1的效果。即使棋手风格相近,齐心合力,也只能在一定程度上弥补缺陷,无法做到战胜人工智能。还有些非专业棋手说Master下的是30秒一步的快棋,对人类不利,正式比赛时延长用时,人类就有机会。这更是天方夜谭。计算机用时越多,计算得越深入,这是和时间成正比的;而人类不同,虽然思考时间多会更加周详,但无疑不是呈正比例增加的。加长比赛时间,只会增加人工智能的优势。
刘宗凡:阿尔法狗有没有弱点呢?
倪俊杰:刚开始时,有人说阿尔法狗不会“打劫”,甚至怀疑李世石和谷歌签订了不准“打劫”的协议。后来的战局我们可以看到阿尔法狗不仅会“打劫”,而且打得很出色。有人根据阿尔法狗尽可能选择比较简明的走法,认为人类把战局引向复杂化就有机会,这其实是天大的误解。阿尔法狗的下法是基于它自己认为胜率最大的着法,而不是不擅长应付复杂局面。阿尔法狗可能有弱点,但人类已经抓不住它的弱点了。
刘宗凡:那么,阿尔法狗是不是“围棋之神”?也就是说它的每一步都是绝对正确的?
倪俊杰:虽然人类已经无法战胜阿尔法狗,但阿尔法狗却还称不上是“围棋之神”。我们可以想象:两只“狗”对弈,肯定会互有输赢,这就很好地说明了阿尔法狗并不是每一步都是“正确”的。之所以阿尔法狗强大到人类无法战胜,原因并不是它的绝对正确,而是它的“料敌先机”。真正的“围棋之神”,应该是能达到穷尽围棋所有可能的计算机。至少从现在的技术来看,“围棋之神”在可预计的未来还不可能出现。
智能手机不“智能”
刘宗凡:说到人工智能,我们最容易联想到的产品就是智能手机。以“智能”命名的手机,到底是怎么个“智能”法呢?
1993年,IBM公司推出了一部叫Simon的手机,这是世界上第一款使用触屏的智能手机。但直到十几年后,从苹果公司2007年第一代iPhone起,才真正掀起了智能手机的热潮。在不到十年的时间里,我国智能手机拥有率已经超过86%。
但是我们有没有想过,智能手机之所以被称为“智能”,它和功能手机相比,到底哪里“智能”了?
倪俊杰:从我们最直观的感受来说,智能手机的一大优势是有大的触摸屏。有人说,智能手机除了打电话、发短信,还可以玩QQ、微信,可以听音乐、看视频、上网、玩游戏……但这些功能在功能手C上也全都有;虽然使用体验有差别,但可以说这两种手机并没有本质的不同。还有人说,两者最大的区别是智能手机可以自由安装应用(APP),而功能手机却不可以。但其实功能手机也是可以的,功能手机上的Java平台,可以安装一些第三方应用,如手机QQ、UC浏览器等就有流行一时的版本。
智能手机其实没有一个官方的定义,我们来看一下百度百科的词条:智能手机,是指像个人电脑一样,具有独立的操作系统、独立的运行空间,可以由用户自行安装软件、游戏、导航等第三方服务商提供的程序,并可以通过移动通信网络来实现无线网络接入手机类型的总称。从这个定义来看,智能手机并没有任何智能的地方,倒是和我们使用的电脑(PC)非常接近。如果我们把这种手机称为“电脑手机(Pc-Phone)”,显然更加贴切。
邱元阳:智能手机真的完全没有智能吗?其实也不是!大家还记得和iPhone4S同时的,还有一个叫Siri(苹果智能语音助手)的应用吗?我们可以通过自然语言和它进行对话,可以让Siri完成一些实用功能,如询问天气、附近美食、影院等,或者调用自身功能,进行日程安排、闹钟设置、搜索资料等。Siri还可以不断学习新的声音和语调,提高对话质量。这些听起来很美好的功能,在实际生活中使用率并不高。原因很简单,Siri很多时候听不懂你的话,有些回答和问题风马牛不相及,实用性太低。
语音助手涉及的人工智能领域核心技术有两项:一是语音识别,二是语义理解。不说全球数百种语言的差异,就拿汉语来说,各种方言数不胜数,即使单纯说普通话,每个人都会有不同口音,加上汉语纷繁复杂的表达形式,我们就可以知道语音识别如何不易。至于语义的理解,这是比语音识别更难解决的难题,目前还没有突破性的研究成果出现。所以语音助手和人类进行的对话,基本上是通过谷歌、百度之类的通用搜索引擎来实现,或者结合维基百科、知识搜索技术、Yelp问答等专用领域搜索进行补充。所以Siri之类的语音助手,只能说是很不智能的人工智能。
智能手机中还应用到的人工智能就是生物识别技术,它是利用人体固有的生理特征、行为特征来进行个人身份的鉴定,如虹膜识别、视网膜识别、面部识别、签名识别、声音识别、DNA识别等,都还在不断研究发展中,在手机中还无法进入实际使用阶段。
由此可以看出,我们现在使用的所谓“智能手机”,其实是“挂羊头卖狗肉”,是不具备多少人工智能的!
生活中的人工智能
刘宗凡:那么,我们生活中还有哪些看起来、听起来很“人工智能”的呢?没错,肯定是机器人。富士康已经在中国各大生产基地安装了4万台机器人,此举是为了减少公司雇用的员工数量。富士康每年可以打造1万台机器人,未来它将继续利用机器人替代人类,而仅仅在昆山工厂,最近就裁掉了6万名员工。听起来能代替工人工作的机器人,是不是很智能?但令人遗憾的是,这些所谓的机器人,只不过是生产自动化过程中的一些能完成固定操作的机器,称它们为“机械手”可能比较符合实际。可以说,在我们的生活、生产中,真正的人工智能还处于萌芽状态,距离实用阶段还有很大的距离。现在,我们来说说生活、工作中能接触到的人工智能。
邱元阳:游戏中的AI。不同类型的游戏,其中的智能化水平也不相同。当然智能最强的仍然是人机博弈程序,而一般意义上的游戏并不包含这类程序。常见的页游、手游,打怪杀妖,电脑对手都是不堪一击的,虽然其依靠强大的生命值和伤害能力来设置障碍,但从智能水平上说,仍然属于弱智级别。即使是战略游戏中的人机对战,电脑虽然具有了一定的程序化智能(之所以说是程序化智能,是因为它们的智能水平都是程序设定好的固定模式),但仍然不能依据场景和战况来即时调整策略和战术。有些修改过的强AI版本,电脑的智能水平虽有大幅度提高,但从本质上来说,仍然是程序在进行简单的判断,o出稍微有些变化的战术而已,并没有基于深入和细致的分析来进入决断。
倪俊杰:无人驾驶与无人飞行。之所以没有人将汽车看作是机器人,是因为汽车不具备独立行为驱动,也就是说,它的行驶动作是在人的控制下进行的,而不是自主动作。
相比之下无人机的安全威胁就小得多,但小区域内的无人机飞行常常无法监管,以至于泛滥成灾,据说法国军方就迫于无奈用老鹰捕捉乱飞的民间无人机。不过这些民间无人机,往往只是一种简单的遥控飞行器,与人工智能无关。而各国空军努力研发的无人侦察机,才具有真正的人工智能。这两种无人机虽然有着天壤之别,却常常被人混淆。
邱元阳:语音识别与语音合成。随着智能手机的全面普及,傻瓜式输入的要求越来越明显,这也进一步促进了语音输入和语音识别技术的快速发展。IBM、科大讯飞、百度等都在语音识别技术上投入了大量的研发精力,目前对普通话发音的正确识别率已接近100%。不过,语音识别的用户体验并不在于对标准发音的准确识别,而在于对非标准发音的高识别率。对于普通用户而言,他更在乎的是语音输入法能够听懂他带着方言特色的自然发音。好在现在的语音识别技术对这一要求的满足已不在话下。
与语音识别关联的,则是语音合成技术。在电子导航、机器朗读、文本转换、机器有声翻译、机器人语音等领域,语音合成都有着广阔的天地。但是与真人发音相比,目前的语音合成效果还很生硬,需要进一步突破。
倪俊杰:机器翻译中的人工智能。机器翻译一直被人诟病。如果从效果上看,机器翻译几乎没有多少智能可言,尤其是很多的在线翻译,一对一生搬硬套的痕迹很严重。这里面对语法的处理,远比想象中要困难得多。
机器翻译的前提条件是对相关联的两种语言的理解。而科幻小说和电影中对外星人语言的自动翻译,以及类似可以翻译不识别的语言的功能描述,则永远只能停留在科幻之中。如果用逻辑来推论,也许这种希望连科幻都算不上,只能是妄想。如果放弃对陌生语言的翻译,转而捕捉和干预其思维活动,从中得到生命体的思想、意图并与之交流,还是有微弱的可能性的。
邱元阳:文学创作。在阿尔法狗、小度、搜狗“汪仔”、新闻写稿机器人,以及各种各样的人工智能不断地出现,并且取得了一定的效果后,在未来,机器无法涉足的人类空间似乎越来越少。现在,被视为人类最后阵地的艺术也成为人工智能进军的方向。但是,无论是文字艺术、图像艺术,还是声音艺术,机器的表现都很难与人类媲美。
我们来看看网上可以给你“写诗”的“编诗姬”(http:///)。如下图所示,这是它“写”的一首田园诗,评分为102。有没有那么一点古诗味呢?下面我以“我的电脑”为题让它“写”一首藏头诗――虽然评分很高,但是……只能说我出的这个题目对用古诗来表现太难了吧。
人工智能展望:强人工智能
刘宗凡:在谷歌的阿尔法狗战胜世界围棋冠军李世石新闻引爆世界之后,有关人工智能、深度学习的炒作也异常火爆。不过,有一方的观点却让人惊出一把冷汗――别让阿尔法狗给忽悠了。事实上,阿尔法狗仅仅是一台机器,强人工智能才是未来。那么,什么是“强人工智能”?它又会给这个世界添什么乱子呢?
邱元阳:我们先来看一则假新闻:1989年,苏联著名国际象棋冠军尼古拉・古德科夫于莫斯科挑战一台巨型电脑,双方整整鏖战了6天,记分牌上显示出3:0,人类大师连胜三局。裁判示意增赛一局,给电脑一个挽回“面子”的机会。古德科夫春风得意,频频挥手向观众致意。电脑的指示灯不停闪动,似乎十分恼怒。随着开局哨声鸣响,电脑先下第一手,古德科夫看也不看,伸手去抓他的棋子……一声惨叫惊呆了场上观众,人们看到古德科夫重重地倒在金属棋盘上,身上冒出缕缕青烟。赛场一片混乱,工作人员立即切断电源。等到医生赶到时,这位前全苏冠军早已毙命身亡。警方认定,这部杀人电脑在输棋后恼羞成怒,自行改变了程序,向棋盘释放强大的电流,故意击杀了对手。
这则假新闻里,人工智能不仅具备下棋的智慧,还具有人类的感情和思维,并且可以通过感情来支配自己的行动。这种人工智能如果实现,可以认为是“强人工智能”。
倪俊杰:“强人工智能”一词是美国的哲学教授约翰・罗杰斯・希尔勒(John Rogers Searle)在1980年提出的,其定义为,“强人工智能观点认为计算机不只是用来研究人的思维的一种工具;相反,只要运行适当的程序,计算机本身就是有思维的”。与当今的机器人不同的是,“强人工智能”的机器不再只是一种工具,其本身也可以思维。“强人工智能”有真正推理和解决问题的能力,这样的机器将被认为是有知、有自我意识的。与之相悖的是“弱人工智能”理论,弱人工智能观点认为不可能制造出能真正推理和解决问题的智能机器,这些机器只不过看起来像是智能的,但是并不真正拥有智能,也不会有自主意识。阿尔法狗的水平也仅仅是处于弱人工智能阶段,还很低级,顶多算是一个天资不高,但还算勤奋好学、废寝忘食的好学生。严格来说,深度学习并不是新技术,它的基础仍然是神经网络算法。阿尔法狗的成功,是因为它积累了3000万局的验,提升了下棋的“智力水平”,最终才在对弈的时候展现出精湛的技艺和水准。
那么,强人工智能离我们到底有多远呢?来看这样两则新闻:
2016年4月,IBM工程师约书亚卡尔推出了一项新的技术,使用Emotiv Insight头盔的蓝牙功能将机器电脑和使用者脑电波连接,从而实现对物体的意念控制,这款产品叫做BB-8,它既是一款树莓派卡片电脑,同时也是一个由脑电波直接控制的球形迪士尼玩具机器人。
2017年2月,总部设在澳大利亚墨尔本的创业公司Aubot推出了一种可以用大脑控制的远端临场机器人(telepresence robot),该机器人名为Teleport。通过放置在用户额头上的运动传感器,MindWave可以监测用户大脑中的脑波。如果用户的精神集中度在某个阈值(大约70%)之上,Teleport就会移动。Teleport移动时,如果用户想要在向前、向后、向左或向右之间切换,只需连续眨两下眼。
虽然说,以上两则新闻并不是直接介绍强人工智能的,但用意念控制物体本来是孩童时的梦想,现在已经成为现实。通过传感器和芯片,人们已经把机器和人完美地连接起来了。我们完全可以预测,在不久的将来,机器通过“学习积累”之后,也具备了人一样的形体动作、情感习惯,逐渐成为另一种“人”。而且,这个“人”可能是非常完美的,许多我们自然人无法做到的事情,它都能很方便地实现。试想一下,一个相貌俊朗、体格健壮、谈吐文雅、举止不凡的“人”出现在你面前,他掌握了世界各国语言,上得了厅堂,下得了厨房,能陪你解闷,能给你治病,能教你学习,能……好吧,我已经不敢想象了,自己脑补吧――这时,你是不是要对人工智能顶礼膜拜了?
人工智能经过60年的积淀,从去年开始在深度学习、跨界融合、人机协同和群体智能等方面,都出现了重要新进展。
现在,科技界、企业界的专家和创新型企业,包括一些年轻的创业者正在共同制定促进中国人工智能创新发展的规划。这个规划旨在推动人工智能在经济建设、社会民生、环保事业、国家安全等方面的应用。
人工智能和其他技术的结合,已经临近了突破点。随着人工智能被写入“十三五”规划纲要,有预测说中国人工智能市场规模2018年将突破380亿元。
“像100年前的电力,人工智能将改变几乎所有行业。”世界著名人工智能专家吴恩达有一句圈内闻名的论断,几年前,他担纲“百度大脑”研究,让中国企业跻身世界前列。
随后,以AlphaGo称霸棋坛为契机,人工智能成功吸引了中国投资圈和舆论场的注意力;就在刚刚过去的全国两会上,“人工智能”也成为热词,这些都显示出各界对这一新兴领域的重视。
写入《政府工作报告》
3月5日,全国两会上的《政府工作报告》提出:“全面实施战略性新兴产业发展规划,加快新材料、人工智能、集成电路、生物制药、第五代移动通信等技术研发和转化。”这是人工智能首次进入政府工作报告。
3月11日,科技部部长万钢在两会记者会上曾表示,人工智能可能会被考虑增加进政府面向2030年的重大科技项目的规划。“人工智能经过60年的积淀,从去年开始在深度学习、跨界融合、人机协同和群体智能等方面,都出现重要新进展。人工智能领域的重大项目,我们正在进行论证。”
万钢说,“人工智能是我们长期关注的领域,这次政府工作报告也提到了人工智能。”多年来,科技部通过“863”、“973”、科技支撑计划等一系列科技计划,积极推动人工智能技术发展。在关键技术攻关方面,重点支持了智能计算机系统、智能机器人、自动信息处理,在智能交通、智能电网、智慧城市等方面也支持了一批项目。
“我们的企业也很给力,大家看到了比如阿里巴巴、百度、腾讯、华为,他们都在进行这方面的研究,大家已经在市场上看到了一些。”万钢说,“江苏卫视《最强大脑》节目,有几位最强选手和人工智能PK,引起广泛关注,AlphaGo也是如此。人工智能确实取得了很快发展,它将会引领经济社会发展,改善我们的生活,特别是在精准医疗、养老服务等方面会有良好的发展前景。”
万钢表示,今后几年,中国将在深度学习关键技术、跨界融合的信息技术、人机协同的操作和控制方面,在群体智能和开放研究方面下力气。
“我们正在集聚科技界、企业界的专家和创新型企业,包括一些年轻的创业者共同制定促进中国人工智能创新发展的规划。这个规划旨在推动人工智能在经济建设、社会民生、环保事业、国家安全等方面的应用。同时,国家还要打好基础,中央财政将设立一个专项,主要是在基础研究、核心关键、共性技术上下功夫。这个研究必须是开放的,将来会有知识交流的平台,有开放的知识共享平台,要建立开放的软件平台、开源的硬件平台,以及专业化众创空间。这个规划目前我们正和相关方面共同起草,估计两会以后很快就会和大家见面。”万钢说。
成为两会热词
两会上,几位来自IT界的代表委员也积极发声,呼吁中国企业联手人工智能研究产业化,并认为这方面有可能超越美国。随着人工智能在两会热议,相关股票随之上涨。
全国政协委员、百度董事长李彦宏在两会期间的会上表示,政府工作报告中首次写入人工智能,意义堪比6年前“互联网”首次作为明确战略方向出现在政府工作报告中,以及两年前“互联网+”首次写入政府工作报告。李彦宏表示,在今年两会上提交的三项提案都和人工智能有关。
各家分析都认为,人工智能和其他技术的结合,已经临近了突破点。随着人工智能被写入“十三五”规划纲要,有预测说中国人工智能市场规模2018年将突破380亿元。
“未来5到10年,人工智能将像水和电一样无所不在,可以进入教育、医疗、金融、交通、智慧城市等几乎所有行业。”全国人大代表、科大讯飞董事长刘庆峰说。
“人工智能将掀起未来十年最重要的技术革命,这对我国来说是一个时代机遇。”全国人大代表、小米公司董事长雷军说。
中国企业力图弯道超车
两会期间,李彦宏曾表示,百度在无人驾驶汽车方向已经尝试做了几年,他认为在2021到2022年之间,无人驾驶车会实现商用。
李彦宏还介绍说,百度云将跟人工智能的各项技术,比如语音识别技术、自然语言理解技术、图像识别技术相结合,为很多行业提供解决方案。
“‘度秘’刚刚推出的时候只是寄生在手机百度里的一个功能,现在已经可以作为一个物联网的操作系统了,并可以植入到任何一个电器中,甚至那些目前还不通电的比如桌子,将来都可以变成智能的。所以,这样一个操作系统可以让人和工具进行自然语言的交流和对话。”
“^去,人都是要学习工具的使用方法,学习怎么调冰箱的温度,人类每发明一个工具,买来之后都要拿一个说明书看这个东西怎么用,这个是很反人类的。”李彦宏说,“其实真正符合人性的用法,应该是任何的工具都能听得懂人话,我觉得这是人工智能带来的改变,不管是冰箱、彩电、汽车,甚至是桌子、椅子,未来都应该能够听得懂人话。”他如是描述百度的人工智能愿景。
垂直细分领域,群雄并起
目前,美国人仍然在AI研发上坐头把交椅。去年震惊围棋界的阿尔法狗,来自谷歌旗下。谷歌的传统长项是机器学习,他们主攻智能家居系统、智慧医疗等技术;与谷歌竞争的一款围棋AI,则来自Facebook,他家的人工智能研究团队长于图像识别;而IBM的Watson早就出名了,最有希望率先用在智能医疗市场上。
中国方面,吴恩达主导的百度大脑引起了世界同行重视,百度也力图在无人驾驶领域领导世界,百度还将AI引入金融圈;语音学习识别方面,科大讯飞已经是行业翘楚。
目前,全球IT巨头力拼AI,基本上是利用本公司的海量数据培训机器,让它解决某一具体问题,比如辨认照片上的花朵,或者提高订餐系统的效率。而通用化的雄心壮志尚未落实。
研发“云端机器人”的达闼科技公司的联合创始人汪兵表示,机器人完成单项任务有很多应用,但让它使用人的工具完成日常任务,比如放下锅又拿起抹布擦桌子,可不容易。汪兵说,他估计2025年能够推出这样的住家通用机器人。
互联网上半场互连的机会已经过去,下半场就是人工智能了。
人工智能时代应运而生的过程,跟大数据的发展差不多,都是从信息获取到识别,到信息处理分析和反馈,再到最后的经验存储、格式化,以及循环的生态净化。毕竟,大数据、运算能力和产业应用都是人工智能发展的重要因素。当下人们关心的是,重大的产业机构是否会伴随着人工智能的发展同时到来?是否会同时产生聚集效应?这也是投资很重要的背后逻辑。
中国的人工智能时代,实际上就是互联网和大数据时代的产业衍生。这是因为互联网前期的高速发展,从平面互联网到一维、二维,再到后面快速智能互联网的发展,整个进程都是循序渐进的。而中国人工智能时代的基础设施和基础条件,其实也是逐渐在成熟的。云计算、智能终端、大数据、宽带、传感器等产业链逐渐成熟,也推动着人工智能的快速爆发。
滴滴出行创始人程维曾在一次演讲中表示,互联网上半场互连的机会已经过去了,下半场就是人工智能。而分享经济,是未来20年整个互联网时代最大的发展趋势。新美大CEO王兴也曾在一次工作会议中提出,未来大的互联网企业,其实重点在运营。过去是做用户、做流量,接下来的重点就是做运营。把这个点做到极致,真正使互联网企业效率提高、成本降低、用户体验提升。而这三个部分要做好,其实跟人工智能有着重大的关联。互联网上半场连接人人的风口已经基本结束,互联网下半场运营提升和人机连接的风口正在开始。
中国人工智能应用的产业发展也是逐渐在深化,人工智能的类型大致分为3种。第一是数据挖掘和优化以助于精准营销部分的应用;第二是软件、硬件控制,推动工业4.0发展;第三是人机互动,包括智能客服、服务机器人等方面的发展。相对而言,这些是目前正在快速发展的。而未来更多应用的机会将出现在在线医疗、在线教育、车联网、无人机、工业4.0等方面。
互联网的下半场属于人工智能,这已经是大家的共识。但是,资本对互联网下半场的投资逻辑又是怎样的呢?
以启赋资本为例。即使目前在机器人、无人机方面布局不多,但启赋资本在在线医疗、在线教育、互联网酒店、酒店智能化应用和工业4.0等方面都有了充分的布局。与此同时,为了获取巨大的用户基础,启赋资本还投资了大量的产业互联网平台型公司。而在人工智能方面,一些能够早期布局的机会,也是比较珍贵的。
而在这一系列的投资布局中,启赋资本其实依循着一套投资逻辑,即秉承对互联网上半场已经结束的基本判断,更加关注互联网的下半场。根据这样一个基本的逻辑,尽量去绕开BAT、关注垂直重运营、结合人工智能、推进O2O产业升级以及供给侧的共享经济优化等。当然,更多的也会结合自身在B2B领域的投资优势进行布局,例如工业链金融、企业级服务等方面的投资。
其实,在投资过程中,共享经济、消费升级都是会考虑到的。而在人工智能方面,考虑的重点应当是核心技术。首先是关键技术类的项目,那些持续研发的、有产业化思维的前沿项目会更受资本的欢迎。
战争是人类社会生活不可割裂的部分,甚至马克思称其“要比和平发达得早”。战争的规则虽然简单,但却很少得到遵守。正因如此,倘若人工智能发展到足以代替人类操控武器的程度,人们一定会毫不犹豫地将其送上战场――正如人们对待飞机、履带式装甲车和武装舰艇的态度,其出发点不会有什么两样。但战争还要多久才能踏入人工智能时代的门坎呢?
战争的人工智时代的到来,可能即没有想象中那么快,但也没有想象中那么远。要知道,人工智能的概念本就非常宽泛,所以人工智能也分很多层次,弱人工智能就是其中之一。所谓的弱人工智能是指擅长于单个方面的人工智能。我们的手机就充满了弱人工智能系统――比如地图软件导航,或者和Siri聊天等等很多应用。显然,我们早已处在了一个充满了弱人工智能的世界。
过去20年里,类似弱人工智的自动化系统逐步消灭了大量制造业和办公室的岗位,如今这一趋势正在席卷各国军队。越来越自动化的海军舰艇就是一个很恰当的例子。20年前要有效运作一艘排水量10 000吨级的“阿利・伯克”级驱逐舰大约需要337~380人,但今天一艘排水量14 500万吨的DDG1000“朱姆沃尔特”号驱逐舰却只需要不到150名舰员,而后者的综合战斗效能至少是前者的3倍,自动化技术的进步是显而易见的。与军舰的自动化程度情况相对应,重型战斗机后座飞行员的消失也是如此,今天所有重型五代机都只有单座型号,消失的后座显然被高度自动化的人工智能设备取代了。另外,从美国卡曼的K-MAX货运无人直升机到波士顿动力的“大狗”四足机器人,各种各样的弱人工智能装备在军事后勤等非直接战斗领域的应用已然是一个热点趋势。各国军方都在寻求着可降低后方部门成本的自动化技术,这有助于减少士兵在运输等流动战场上可能面临的威胁。而在可预见的时间里,弱人工智能在这些领域的存在还将拓展。正如宾夕法尼亚大学教授、全球知名武器化机器人专家迈克尔・霍罗威茨所说:“正如在民用经济中一样,自动化可能会对后勤部门等军事机构产生重大影响。”
如果说人工智能革命是从弱人工智能,通过强人工智能(即人类级别的人工智能),最终到达超人工智能的过程,那么人工智能自然不会满足于一直以“弱人工智能”存在于军事领域――由“弱”到“强”,继续向前进化是肯定的,而且其范畴也必将从非战斗领域延展到直接的战斗领域。从人工干预最多的有限自主到完全的无限自主――目前的战斗用人工智能研究正是沿着这样的方向在前进。这样一种智能化的战斗机器人无疑将是自动化技术的巅峰之作,能够把人类从繁重、危险的战争环境中解脱出来,成为高效、精确、可靠的战争机器。对此一个极好的例子是关于空中战场的。2011年2月4日,诺斯罗普・格鲁曼公司的X-47B隐身无人机在加州爱德华兹空军基地首次升空,顺利完成了29分钟的测试飞行,飞行高度达到了1 500米。全程观看新机试飞的军方代表加梅・恩达尔宣称:“今天,我们第一次见证了未来。”事实上,尽管这是一架海军的“盐水机”,但联想到此前美国海、空军、国防部高官在不同的场合不同的时间都表示过F-35将是最后一代有人驾驶战斗机,而美军又一贯在装备论证研究方面表现出了异乎寻常的前瞻性和创造性,大量预研、论证型号的出现从来就是不间断的,这使人们不得不正视具有自主任务能力的“强人工智能”代替人类飞行员的可能性,以及由此引发的伦理问题。
关键词】人工智能 AlphaGo 神经突触 机器学习 模式识别
【中图分类号】TP18 【文献标识码】 A
【DOI】10.16619/ki.rmltxsqy.2016.07.002
2016年3月9~15日,谷歌公司研发的AlphaGo围棋软件与韩国棋圣李世石进行了五场人机对决,AlphaGo以4比1的比分取得了压倒性的胜利。这个比赛结果不仅震惊了整个围棋界,也让人工智能领域的许多专家学者跌破眼镜,更让人工智能走出象牙塔,成为许多普通百姓茶余饭后的热点话题。这场人机围棋巅峰对决不仅向全世界展示了人工智能的强大实力与巨大应用潜力,也在人类社会引起了不小的恐慌和忧虑。人们开始认真思考以下这些问题:机器智能最终会超越人类智能吗?人工智能将会如何改变人类社会?未来的智能机器会像电影《终结者》里所描述的那样试图主宰人类、甚至消灭人类吗?要想回答这些问题,我们首先需要了解人工智能的本质及其基本原理,进而讨论其发展的规律和前景。当前,人工智能领域最前沿的分支学科当属机器学习分支。本文首先对机器学习分支中最受世人瞩目的研究成果――深度学习卷积神经网络――做一个简单综述,进而围绕机器学习的本质及其基本原理进行探讨。接下来,通过对人脑认知机理最新研究成果的概括介绍,揭示机器智能与人类智能的本质差异,比较两种智能的优势与劣势。通过机器智能与人类智能的优劣势比较,试图找出上述几个问题的答案。
深度学习卷积神经网络
过去几年里,深度学习卷积神经网络所取得的成就足以使它成为人工智能王冠上最光彩夺目的明珠。基于深度学习卷积神经网络的语音识别系统把语音识别的精度提高到了产品级的精度,从而为人类与计算机及各种智能终端之间提供了一种崭新的、更为便捷的交互方式。将深度学习卷积神经网络应用于图像内容及人脸的识别,科学家们取得了能够与人类视觉系统相媲美的识别精度。战胜韩国棋圣李世石的谷歌围棋软件AlphaGo能够取得如此辉煌的战绩,深度学习卷积神经网络也发挥了关键性的作用。接下来,我们对深度学习卷积神经网络的起源及其原理做一个简单介绍。
脑神经科学领域的大量研究表明,人脑由大约1011个神经细胞及1015个神经突触组成,这些神经细胞及其突触构成一个庞大的生物神经网络。每个神经细胞通过突触与其它神经细胞进行连接与信息传递。当通过突触所接收到的信号强度超过某个阈值时,神经细胞便会进入激活状态,并通过突触向上层神经细胞发送激活信号。人类所有与意识及智能有关的活动,都是通过特定区域神经细胞之间的相互激活与协同工作而实现的。
早于1943年,美国心理学家W.S. McCulloch和数学家W. A. Pitts就在他们的论文中提出了生物神经元的计算模型(简称M-P①模型),为后续人工神经网络的研究奠定了基础。M-P模型的结构如图1(a)所示,它包含n个带有权重的输入,一个输出,一个偏置b和一个激活函数组成。n个输入代表来自下层n个神经突触的信息,每个权重W)代表对应突触的连接强度,激活函数通常采用拥有S-型曲线的sigmoid函数(参见图1(b)),用来模拟神经细胞的激活模式。
早期的人工神经网络大都是基于M-P神经元的全连接网络。如图2所示,此类网络的特点是,属于同一层的神经元之间不存在连接;当前层的某个神经元与上一层的所有神经元都有连接。然而,人们很快发现,这种全连接神经网络在应用于各种识别任务时不但识别精度不高,而且还不容易训练。当神经网络的层数超过4层时,用传统的反向传递算法(Back Propagation)训练已经无法收敛。
1983年,日本学者福岛教授基于Hubel-Wiese的视觉认知模型提出了卷积神经网络计算模型(Convolution Neural Network,简称CNN)。早在1962年,Hubel和Wiesel通过对猫视觉皮层细胞的深入研究,提出高级动物视觉神经网络由简单细胞和复杂细胞构成(如图3所示)。神经网络底层的简单细胞的感受野只对应视网膜的某个特定区域,并只对该区域定方向的边界线产生反应。复杂细胞通过对具有特定取向的简单细胞进行聚类,拥有较大感受野,并获得具有一定不变性的特征。上层简单细胞对共生概率较高的复杂细胞进行聚类,产生更为复杂的边界特征。通过简单细胞和复杂细胞的逐层交替出现,视觉神经网络实现了提取高度抽象性及不变性图像特征的能力。
卷积神经网络可以看作是实现上述Hubel-Wiesel视觉认知模型的第一个网络计算模型。如图4所示,卷积神经网络是由卷积层(Convolution Layer)与降采样层(Sampling Layer)交替出现的多层神经网络,每层由多个将神经元排列成二维平面的子层组成(称为特征图,Feature Map)。每个卷积层和上层降采样层通常拥有相同数量的特征图。构成卷积层x的每个神经元负责对输入图像(如果x=1)或者x-1降采样层的特征图的特定小区域施行卷积运算,而降采样层y的每个神经元则负责对y-1卷积层的对应特征图的特定小区域进行Max Pooling(只保留该区域神经元的最大输出值)。卷积运算中所使用的卷积核系数都是通过学习训练自动获取的。卷积层中属于同一个特征图的神经元都共享一个卷积核,负责学习和提取同一种图像特征,对应Hubel-Wiesel模型中某种特定取向的简单细胞。卷积层中不同的特征图负责学习和提取不同的图像特征,对应Hubel-Wiesel模型中不同类型的简单细胞。而降采样层y中神经元的Max Pooling操作等同于Hubel-Wiesel模型中复杂细胞对同类型简单细胞的聚类,是对人脑视觉皮层复杂细胞的简化模拟。
上世纪90年代初期,贝尔实验室的Yann LeCun等人成功应用卷积神经网络实现了高精度手写数字识别算法,所提出的系列LeNet,都达到商用级识别精度,被当时美国邮政局和许多大银行用来识别信封上的手写邮政编码及支票上面的手写数字。然而,受制于90年代计算机有限的内存和弱小的运算能力,LeNet网络采用了较浅的网络结构,每层使用的特征图数目也很少。尽管它在小规模图像识别问题上取得了较好的效果,但与传统机器学习算法(如SVM,AdaBoost等)相比,优势并不十分明显。此外,由于卷积神经网络拥有很高的自由度,设计出一款性能优异的网络需要灵感并配合丰富的经验积累,是一项极具挑战性的工作。因此卷积神经网络在被提出后的很长一段时间里并未得到足够的重视和广泛的应用。
2012年,加拿大多伦多大学Geoffrey Hinton教授的团队提出了一个规模比传统CNN大许多的深度卷积神经网络(简称AlexNet)。该网络拥有5个卷积与降采样层、3个全连接层,每个卷积与降采样层拥有96384个特征图,网络参数达到6000多万个。利用AlexNet,Hinton团队在国际上最具影响力的图像内容分类比赛(2012 ImageNet ILSVRC)中取得了压倒性胜利,将1000类图像的Top-5分类错误率降低到15.315%。在这次比赛中,获得第二、三、四名的团队均采用了传统机器学习算法。三个团队的Top-5图像分类错误率分别是26.17%、26.98%和27.06%,相差不到1个百分点,而他们的成绩和第一名相比却低了超过10个百分点,差距十分明显。当前,深度卷积神经网络(Deep CNN)相对传统机器学习算法的优势还在不断扩大,传统学习方法在多个领域已经完全无法与Deep CNN相抗衡。
机器学习算法的基本原理及其本质
在几千年的科学探索与研究中,科学家们提出了许多描述自然界及人类社会中各种事物与现象的数学模型。这些模型主要可以被归纳为以下三大类别。
归纳模型:由少数几个参数(变量)构成,每个变量都具有明确的物理意义。这类模型能够真正揭示被描述对象的本质及规律,许多数学和物理定律都是典型的归纳模型。
预测模型:用一个拥有大量参数的万能函数来拟合用户所提供的训练样本。万能函数的参数一般不具备任何物理意义,模型本身往往只能用来模拟或预测某个特定事物或现象,并不能揭示被描述事物或现象的本质及内在规律。当代的大多数机器学习算法都是构建于预测模型之上的。例如,单隐层全连接神经网络所使用的数学模型是:
上式中,x代表神经网络的输入,代表神经网络的参数集,M是隐层神经元的个数。这个数学模型如同一个橡皮泥,可以通过变换它的参数集被塑造成任何形状。给定一个训练样本集,其中分别代表训练样本i以及人工赋予该样本的标签(标签表示样本的类别或某种属性),通过利用T进行训练,我们就能够得到一个优化的参数集,使神经网络能够很好地拟合训练样本集T。当新的未知样本x出现时,我们就能够利用训练好的神经网络预测出它的标签y。显而易见,神经网络的参数集规模与神经元的数目及输入x的维数成正比,所有参数没有任何物理意义,模型本身也不具备揭示被描述对象的本质及内在规律的能力。
直推模型:没有明确的数学函数,利用所采集的大数据预测特定输入的标签。此类模型认为针对某个事物或现象所采集的大数据就是对该事物或现象的客观描述。大数据的规模越大,对事物或现象的描述就越全面和准确。当新的未知样本x出现时,我们可以在大数据中找到x的K近邻,根据K近邻的标签或属性来决定x的标签或属性。显而易见,由于不需要定义明确的数学模型,与其它模型相比,直推模型最简单直接,但因为依靠大数据来决定未知样本的标签,直推模型往往需要较高的计算量及使用成本。同样,直推模型也不能被用来揭示事物或现象的本质及内在规律。
应当指出,随着互联网用户数量的不断增长以及互联网技术的快速进步,利用互联网获取内容或用户大数据变得越来越简单廉价,利用直推模型来预测某个事物或现象也变得越来越普及。例如,许多互联网搜索引擎利用每个网页的用户点击率来改进搜索网页的排序精度,就是直推模型在互联网内容搜索领域的一个成功应用。
综上所述,机器学习算法的本质就是选择一个万能函数建立预测模型。利用用户提供的训练样本对模型进行训练的目的,就是选择最优的参数集,使模型能够很好地拟合训练样本集的空间分布。通过训练得到的预测模型,实际上把训练样本集的空间分布提取出来并编码到其庞大的参数集中。利用这个训练好的预测模型,我们就能够预测新的未知样本x的标签或属性。当今大多数机器学习算法都是基于这个原理,谷歌公司的AlphaGo也不例外。
针对某个事物或现象所采集的训练样本,是对该事物或现象的直观描述,蕴藏着大量与之相关的先验知识。例如,ImageNet ILSVRC国际图像内容分类比赛所提供的训练样本集拥有1000类、总共一百多万张彩色图像。每一类都对应自然界中的一种常见物体,如汽车、飞机、狗、鸟,等等,包含大约1000张从不同场景及不同角度拍摄的该种物体的彩色图像。利用这个训练样本集训练出来的深度卷积神经网络,实际上是将每类物体的共性特征及个体差异等进行信息提取与编码,并记忆到其庞大的参数集中。当新的未知图像出现时,神经网络就能够利用已编码到参数集中的这些先验知识,对输入图像进行准确的识别与分类。
同样,谷歌公司在训练AlphaGo时,收集了20万个职业围棋高手的对局,再利用AlphaGo不同版本间的自我对弈生成了3000多万个对局。3000多万个围棋对局包含了人类在围棋领域所积累的最为丰富和全面的知识与经验。当新的棋局出现时,AlphaGo利用被编码于其庞大参数集中的这些先验知识,预测出胜率最高的一步棋,以及这步棋所产生的最终胜率。由于AlphaGo针对3000多万个对局进行了学习与编码,它对每一步棋的胜负判定甚至比九段棋手还要准,人类棋圣输给AlphaGo也就不足为奇了。
人类智能的本质与特性
对于人脑及其高度复杂的智能,人类至今还所知甚少。关于“智能”这个名词的科学定义,学术文献中就存在着许多个版本。即使是少数几个被深入研究的认知功能(如人脑的视觉认知功能)的工作机理,也还存在着各种各样的假说和争议。在这里,我们列出若干较具代表性、认可度相对较高的关于人脑智能的假说及阐述。
人类智能的本质是什么?这是认知科学的基本任务,也是基础科学面临的四大难题(Simon)中最后、最难解决的一个。每门基础科学都有其特定的基本单元,例如高能物理学的基本粒子,遗传学的基因、计算理论的符号、信息论的比特等。因此,“人类智能的本质是什么”这个问题在某种程度上取决于“什么是认知基本单元”。众所周知,适合描述物质世界的变量并不一定适合描述精神世界。因此,认知基本单元是什么这个问题,不能靠物理的推理或计算的分析来解决,根本上只有通过认知科学的实验来回答。大量实验结果显示,认知基本单元不是计算理论的符号,也不是信息论的比特,而是知觉组织形成的“知觉物体”。例如,实验表明,当人的视觉系统注意一只飞鸟的时候,它所注意的是整只鸟(即一个知觉物体),而不是鸟的某个特性(形状、大小、位置等)。尽管在飞行过程中鸟的各种特征性质在改变,但它是同一个知觉物体的性质始终保持不变。诺奖得主Kahneman认为,知觉物体概念的直觉定义正是在形状等特征性质改变下保持不变的同一性。中科院陈霖院士领导的团队在发展了30多年的拓扑性质知觉理论的基础上,提出大范围首先的知觉物体拓扑学定义:知觉物体的核心含义,即在变换下保持不变的整体同一性,可以被科学准确地定义为大范围拓扑不变性质。应当指出,上述大范围首先知觉物体的概念,与人工智能领域广为认同与采纳的由局部到整体,由特征到物体,由具体到抽象的认知计算模型是完全背道而驰的,因而在人工智能领域并没有得到足够的重视及应用。
大量认知科学领域的实验研究表明,人类智能具有以下几个特性。
人类智能的目标不是准确。人类智能并不追求在精神世界里客观准确地再现物理世界。上帝设计人类智能时,不假思索地直奔“生存”这一终极目标而去:用最合理的代价,获取最大的生存优势。人类大脑的平均能耗大约只有20瓦,相对于庞大的计算机系统来说只是九牛一毛。尽管人脑的重量只有1400克左右,约占人体重量的2.3%,但它的血液供应量却占到了全身的15.20%,耗氧量超过全身的20%,对于人类已经接近其生理可以负担的极限。在这种资源极其有限的条件下,人脑通过以下几种方式实现了最有效的资源调配,由此来保障最有意义的生理和智能活动。
第一,主观能动的选择性。精神世界不是对物理世界的简单映射,而是非常扭曲和失真的。体积相对较小的手指、舌头等重点区域,在感觉运动中枢里却占据大部分的皮层区域。同样,在视觉上只有对应中央视野的视网膜具有很高的空间、颜色分辨率,而更广泛的外周视野只对物体的突然出现或消失,以及物体的运动更敏感。人类视觉处理的通常方式是,外周视野的显著变化会在第一时间被捕获,做出应激反应,然后再把中央视野移动到目标上进行后续的处理。
人类通过知觉组织的选择性注意机制,直接感知输入信号中的大范围不变性质,而忽略大量的局部特征性质。大量视而不见的现象,在实验室研究中表现为注意瞬脱、变化盲视等等。比如,尽管可以清晰地分辨出霓虹灯中的色块颜色、形状各不相同,甚至在空间和时间上都不连续,人脑仍然把这些色块看成是同一个物体,从而产生运动的感觉。研究表明,这种运动错觉本质上不是运动,其生态意义在于对知觉对象进行不变性抽提。另一方面,人脑会主动把忽略的部分补充回来。而通过经验知识,上下文关系等补充回来的信息,难免有错。所谓错觉就是精神世界和物理世界的错位。这些错觉的生态意义在于在有限资源条件下,快速直接地形成稳定的感知。这种机制既是人类天马行空的联想能力和创造力的源泉,同时也是各种精神心理疾患的生物学基础。
第二,模块化的层次结构和分布式表征。当前认知科学越来越依赖于脑成像技术的发展。功能模块化假设认为,大脑是由结构和功能相对独立、专司特定认知功能的多个脑区组成。这些模块组成复杂的层次结构,通过层次间的传递和反馈实现对输入信号的主动调节。大量脑成像的研究实验也支持了这一假设,特别是视觉研究发现了非常详细而复杂的功能模块及其层次结构。另一方面,分布式表征的假说认为,认知功能的神经机制是相对大范围的分布式脑状态,而不是特定脑区的激活与否。当前研究认为,人脑是模块化和分布式表达共存的自能系统。
第三,反应性活动和内生性活动。人脑不是一个简单的刺激―反应系统,大量的内生性活动甚至比反应性活动还多。人脑在所谓的静息状态下的耗氧量与任务状态下相比差别很小。然而几乎所有的经典认知科学研究都是建立在刺激反应实验范式的基础之上。这种实验范式是让实验对象在特定的条件下完成特定的认知任务,收集并分析实验对象的行为或生理反应,通过对实验数据的充分比照,建立人脑某种活动模式或认知机理的假设。内生性活动因其往往只能通过内省的方式进行研究,而被长期排除在认知科学的研究主流之外。随着脑成像技术的发展,功能连接成为分析静息态大脑自发活动的有力工具。特别是默认网络的发现,创立了强调内生性活动的全新脑功能成像研究范式。默认网络被认为涉及警觉状态、自我意识、注意调控以及学习记忆等心理认知过程,已被广泛应用于社会认知、自我、注意、学习、发育、衰老机制的研究,有力推动了各种脑生物指标的完善和脑疾病的治疗,这些疾病包括阿尔兹海默病、帕金森病、抑郁症、精神分裂症和自闭症等等。
因此,整合现有研究中有关分布式表达和内生性活动的最新研究成果,可能会带来对人脑活动模式(人类智能的物质基础)一种全新的理解。
人类智能的本质不是计算。人类智能体现在对外部环境的感知、认知、对所观察事物或现象的抽象、记忆、判断、决策等。然而,这些智能并不是人类所独有。许多高等动物,如狗、猴子、猩猩,也或多或少具有类似的能力。同时,计算并不是人类智能的强项。真正将人类与其它动物区分开来的,是人类的逻辑推理能力、想象力、创造力以及自我意识。人类利用这类能力能够想象并且创造出自然界中不存在的东西,如汽车、飞机、电视、计算机、手机,互联网。这类能力是推动人类社会不断发展与进步的源泉,是生物智能的圣杯。
而对代表生物智能最高水平的上述能力,人类目前还所知甚少,对其机理的研究还处于启蒙阶段。研究表明,这些能力不是依靠计算得来的,而似乎是与联想记忆及人类丰富的精神世界有关。基于脑信号的分析实验发现,人脑的海马回、海马旁回、杏仁核等脑区中存在着大量专司特定联想记忆的神经细胞。例如,上述脑区中存在单个或一小簇神经细胞,会被与美国前总统克林顿相关的所有刺激信号所激活,无论刺激信号是关于克林顿的图片,还是Clinton这个英语单词,还是克林顿本人的语音回放。显然,这些神经细胞并不是被某个模态的特定特征所激活,它们所对应的是克林顿这个抽象概念。此外,脑成像研究表明,围棋专业棋手相对于业余棋手更多的是依赖联想记忆系统,而非逻辑推理来下棋。实际上,围棋界训练棋手的最常用方法就是将高手对局中的关键部分拆解成许多死活题,棋手通过大量死活题的解题训练来提高自己联想记忆的经验和效率。
机器智能与人类智能的优势与劣势
当代的计算机拥有强大的存储与运算能力。伴随着计算技术的不断发展与进步,这些能力的增长似乎还远没有到达尽头。早在1997年,IBM的“深蓝”超级电脑就战胜了国际象棋冠军卡斯帕罗夫。但这次胜利在人工智能领域并没有产生太大的反响,原因在于,“深蓝”几乎纯粹是依靠强大的运算能力遍历所有的可能性,利用“蛮力”取胜的。“深蓝”所遵循的,就是“人工智能即是计算加记忆”这个简单法则。由于围棋的搜索空间比国际象棋大很多,“深蓝”的这种制胜策略针对围棋是行