让电脑看脸色行事

时间:2022-05-19 04:55:16

让电脑看脸色行事

在专业人士眼中,目前的表情识别只能拿来玩。因为要让计算机读懂人的表情,确定和不确定因素造成的困难都很多。何况一个人的表情,另一个真人都未必能读懂。

微软曾经在Office 97中推过一个“屏幕助手”。今天提起来,不知道有几个人还能想起,那是个长着大眼睛的文件夹。这多少因为,“大眼夹”还没在这个世界玩闹多久,就“毙命”于用户的抱怨。而在摩比源公司的工程师吴飞看来,“大眼夹”的失败在于缺少表情识别,如果它能像虚拟视频中的小人们那样,懂得察言观色,通过用户表情,知道什么时候该咧嘴笑,什么时候该耍点小可爱,它的命运也许会有所改变。

颠覆你的视频娱乐

心理学家拉塞尔(J.A.Russell)曾经发现一个少有人注意的事实:在人们的日常交流中,通过语言传递的信息其实只有7%,大约55%的信息都是用面部表情传递的。吴飞所在项目组正在探索的表情计算,就是希望能设计出可以识别和适应用户情绪状态的软件。虽然听起来不太现实,但这个思路已经在虚拟视频软件Fix8上得到了体现。

赵爱华是一位75岁的老太太,华夏老年大学的一名学生。在Fix8的虚拟世界中,她拥有千张面孔,比孙悟空还厉害。刚开始视频聊天,赵爱华只是为了能常常见到远在美国读书的孙女。慢慢地,她也跟着孙女学会了在视频中添加音乐和背景,甚至用上了更为花哨的虚拟视频。

坐在儿子新购置的电脑前,赵爱华熟练地点开软件,选择自己近期最爱的BOB头、蛤蟆镜、外加一顶黑色礼帽,视频中的老太太立刻变身成“活力女孩”。“我还可以变成樱桃小丸子、蜡笔小新,不过我更喜欢把自己扮成年轻漂亮的女孩,美得冒泡美得理直气壮。”赵爱华说着就冲进了飞吧的虚拟世界。儿子有时也会跟她开玩笑说注意网上交友慎重,可别闹出绯闻!赵爱华就会哈哈大笑,然后冲儿子神秘地说:“要是哪个毛头小子敢打歪主意,我就显现我的庐山真面目,吓死他!”

Fix8是摩比源公司2005年成立初期研发的产品,吴飞是研发者之一。他说:“普通的视频欠缺创意,而虚拟视频能让人自由发挥。”吴飞一边说一边在电脑上打开网友上传的视频。

这是一段美国大选的视频。Fix8将真实世界中的总统大选搬到了虚拟世界,选民变身成希拉里、奥巴马或麦凯恩中的任何一个,通过YouTube平台进行在线辩论。只要一个网络摄像头,“希拉里”“奥巴马”和“麦凯恩”们就可以跟随着真人进行移位及演讲。

“这个软件的关键是人类表情分析和重组技术。我们可以将用户的头部做成虚拟形象,通过网络摄像头捕捉用户脸部表情,显示在电脑上,形象通过Internet进行传输,显示在对方的视频窗口里,让用户可以即时互动。”吴飞说。

众所周知,人和人之间交谈时,面部器官的结构特征是次要的,语言和面部表情才是传递信息的主要载体。现在,虚拟视频仅仅通过网络传递对方的语言和面部表情,并且利用面部表情信号驱动虚拟人头部模型进行相应的表情变化。这么一来,不仅能保护隐私,还能在大大节省带宽的情况下,尽可能地传递对方要表达的信息。所以,敏感的韩国电信运营商SK电讯在Fix8推出没多久就开始了和摩比源公司的合作。与此同时,虚拟视频也迅速火热起来。2008年5月10日,久游网和摩比源合作推出了劲秀团,今年9月,新浪与久游网携手推出变脸盛宴SINA SHOW,紧随其后的吐司网和9158视频社区也将陆续推出虚拟视频软件。

那么,这些虚拟视频就是传说中的表情识别么?Fix8能够通过定位和跟踪人脸部的特征点,将面部肌肉线条的运动刻画出来,但它并没有涉及到情感计算。在另一位同样研究表情识别的工程师陈浩民眼里,具有情感计算才能叫真正的表情识别,而且这样的表情识别会有更多应用。

在情感计算上升级

王斌是一名出租车司机,夜班。每天下午7点到第二天早上7点,他都会在首都机场“趴活”。虽然白天睡了几个小时,可到了凌晨2点,还是困得不行,脑袋再次和方向盘亲密接触后才彻底清醒。“好在不是在拉活的过程中打瞌睡,但不是每次都这般幸运。”王斌说。

瞌睡时,如果有个声音能及时提醒,王斌会安全很多。事实上,在对2001年到2004年京津塘高速公路北京段的交通事故进行统计分析时,疲劳驾驶夺取驾驶员的生命数位列第一,占所有交通事故起因的27%。于是,中星微电子集团的陈浩民针对此类情况,和同事们一起研发了依靠人脸表情识别技术的报警系统。

所谓人脸表情识别,就是计算机能对人脸的表情信息进行特征提取分析,按照人的认识和思维方式加以归类和理解,能够分析理解人的情绪并且做出相应的判断。

当然,人的情感不容易计算,但对计算机而言,不会计算情感的确是个缺陷。

“我们项目组研发的安全行车的智能监控系统在一定程度上拥有表情识别、情感计算能力。通过摄像头获取图像信号,图像信号用于监测司机面部表情的乏意,司机一旦出现疲态,报警器就会报警,这套监控系统计划今年9月用在火车驾驶室内。疲劳监控只是表情识别的一个应用,在另一项模拟研究中,当软件能用平静的声音劝说愤怒的司机时,事故减少了一半。或者是在遇上事故时,适当时机及时发出鼓励和劝解,比如‘你能做到的’,最终开发出能感受到用户情绪的系统。”陈浩民说。

除此以外,人脸表情识别能应用的地方很多。譬如在人机交互当中,用户可以利用表情来指示计算机。用户眨一下眼睛,表示要求计算机取消当前的任务,眨两下眼睛就表示要求计算机将任务保存。如果计算机再聪明一点,就能主动地从用户的面部表情推测用户的内心情感,并自动地给出相应的人性化的服务。特别是在动画制作中,有了表情识别,动画人物微笑、眨眼都不再需要很多张图片组合起来,利用软件就能简单实现。

停留在玩的阶段

“现在我们遇到些困难,要全面实现表情识别,几乎做不下去。”陈浩民解释说:“看到你在笑,我就能知道你开心。但是要让计算机能做出这种判断,难度还是很大的。人脸是一个柔性体而不是刚体,很难把脸部运动和表情变化联系起来。再有,像悲伤和愤怒这样的情绪,怎么概括不同的表情特点,让计算机能够清楚地分辨?这也很难。”所以,为了保持较高的识别率,他和他的同事们不得不着手其他途径。

然而,真正的困难还在于,不只“识别”表情这么简单。现实中,需要始终跟踪定位人脸的系统要面对的环境比实验室复杂得多,很容易受到外界因素的干扰――哪怕只是转一下头,或者灯光闪一下。

如果用户脑袋稍微侧一点,计算机眼中的人脸就会出现很大变化。各个器官的形状,各个点的色彩都会因为些许的偏移而发生变化。这个时候计算机就会自动生成多种可能,晕头转向、辨识不出。针对这一状况,有研究者提出采用多摄像头技术、旋转不变特征技术、色彩补偿技术来予以解决,尽管有一定的效果,但是当头部运动比较复杂、多种光线交叉变化时,算法识别率仍然不理想。

“最终体现系统功能的完备程度,还是看能识别多少种表情。然而,现在大多数系统还只能对某一类表情来进行分析,功能非常单一。”在谈到表情识别系统未来的发展时,像其他研究人工智能的人一样,陈浩民面对的还都是老问题――有可能性,有思路,但实现起来难。表情识别应用的一个重要方向,也是目前所有这一领域的人都在努力的方向,就是推测人的内心情感,从而让计算机能提供一种人性化的服务。但情感并不仅仅只有面部表情这样唯一的一种表现方式,并且在很多情况下,面部表情并不一定真实地反映人的心理状态。“也就是说,语音语调、脉搏、体温,这都是表情识别技术需要考虑的问题。总的说来,依旧停留在玩儿的阶段。”陈浩民说。

插文:

情感计算

1971年,心理学家保罗•艾克曼(Paul Ekman)与福里森(Friesen)最早提出人类有六种主要情感:愤怒、高兴、悲伤、惊讶、厌恶和恐惧。每种情感以唯一的表情来反映人的一种独特的心理活动。从解剖学出发,他们提出一种人脸面部表情运动的描述方法――人脸运动编码系统FACS ,根据面部肌肉的类型和运动特征定义了基本形变单元,人脸面部的各种表情最终能分解对应到各个基本形变单元上来,分析表情特征信息,就是分析面部基本形变单元的变化情况。后来,美国MIT大学媒体实验室皮卡德(Picard)教授提出了情感计算的说法。在实际操作中,主要是通过各种传感器获取由人的情感所引起的表情及生理变化信号,利用合适的“情感模型”对这些信号进行识别,从而理解人的情感并做出适当的响应。

表情如何识别

在表情识别系统中,计算机会通过对人脸样本集和非人脸样本集的学习,产生一个分类器。在对人脸表情特征提取和分类之前一般需要做几何归一化和灰度归一化。具体说来,几何归一化就是指根据人脸定位结果将图像中人脸变换到同一位置和同样大小,灰度归一化是对图像进行光照补偿等处理,光照补偿能够一定程度地克服光照变化的影响而提高识别率。预处理完成后,开始人脸表情特征的提取与识别。表情特征识别的方法很多,其中之一是通过几何特征的识别方法,也就是对人脸表情的显著特征,如眼睛、鼻子、眉毛、嘴等的位置变化进行定位、测量,确定其大小、距离、形状及相互比例等特征,进行表情识别。

上一篇:观蛇者说――老铁山蛇岛日记 下一篇:发动机练就吸星大法