语音智能的“技术控”

时间:2022-10-09 07:05:31

【摘要】在2011年Siri随iPhone 4s面世之前,无论是语音应用还是人工智能领域,这样的“热闹”都还不可想象。 就算是中国语音应用第一品牌科大讯飞股份有限公司(下称科大讯飞),语音支撑软...

语音智能的“技术控”

2014年5月29日,微软(亚洲)互联网工程院了一款名为“小冰”的人工智能聊天机器人。这个号称拥有16岁少女智商的机器人首先出现在微信平台上,顶着一张90后“萌妹子”自拍照的头像。这种明确的性别定位,与可男可女的机器人Siri有了些许不同,反而更像一个真实存在的“人”。

然而,这位萌妹子成为“微信红人”后却问题不断。5月30日,部分小冰公号在对话时出现了“无应答”“答非所问”“重复回答”等故障。研发方就此致歉,称为公测期准备的10万个小冰账号于上线首日被抢注一空,同时与小冰聊天的用户超过百万,导致拥堵。另一方面,也有“部分小冰被腾讯微信系统误判为SPAM账号”,即垃圾账号的原因。

5月31日,认证为“微软必应项目经理”的新浪微博公号称“企鹅有时候不让我说话”。次日,微软宣布,“腾讯公司在未做任何说明的情况下,突然开始大规模杀死在各个聊天群组之中的小冰账号。”被视作“奇兵”的小冰,仅三天即告夭折,而其在声明中使用的“屠刀”等措辞,将这次纷争升格为了战争。

微软方面指责腾讯以微信出现假冒账号为借口,封杀了全部真正的小冰。并称在上线伊始,双方就建立了沟通渠道,“我们建议可采用任何形式的合作,双方的沟通本来正在进行”。腾讯公司则声称,接到了大量用户询问,担心这款产品的运营方式是否会泄露用户聊天内容。“经查证后发现该产品涉及模拟用户操作、诱导用户拉群、批量注册垃圾账号等影响平台规则和用户体验的违规行为”。但腾讯亦称仍在与微软沟通。 双方谈判随后终告失败。微软在近几天内迅速与易信、米聊合作,让小冰在上述平台“复活”。此外,微软还称将与触宝结合,担当用户生活服务私人助手;并与奇虎360公司达成“战略合作”,预期在“人工智能、移动互联等方面展开深度技术合作”。而腾讯方面亦在开发自己的语音智能产品。

围绕语音智能的一场大战似已拉开序幕。 一度“失聪”

在2011年Siri随iPhone 4s面世之前,无论是语音应用还是人工智能领域,这样的“热闹”都还不可想象。

就算是中国语音应用第一品牌科大讯飞股份有限公司(下称科大讯飞),语音支撑软件在2010年实现营业收入也仅6400万元。业界公认该公司占据语音应用60%以上市场份额,换言之,市场总量不过1亿元,且主要是基于语音合成业务。海通证券分析师陈美凤测算,由语音识别业务带来的营业收入不到语音支撑软件收入的10%。

语音应用主要分为三大部分,语音识别、语音合成和声纹识别,其中声纹识别技术目前尚未真正形成市场。如果说将Siri及其同类产品看作一个“人”的话,语音识别可以视作他的耳朵,而语音合成则是“嘴巴”。

让机器人“说话”更容易。早期的语音合成可以简单理解为“录音+重放”。首先邀请一名阅读者录制较常出现的词句。而后在“说话”时,将文本切割为短句、词语甚至是发音片断,与录音资料进行匹配后播放。但这种做法有时会令语句听起来相对生硬,甚或较难理解,因此自上世纪80年代以来,对语音合成技术的改进主要是针对自然度和音质。这一技术在公交、地铁等公共广播系统应用已久,智能手机出现后也被广泛用于读书、读报软件。

一度成为语音应用瓶颈的是语音识别技术。上海智臻网络科技有限公司(下称智臻科技)先后推出的MSN聊天机器人、海宝机器人曾经风靡一时。公司董事长袁辉称,在2004年首次开发MSN机器人时,也曾考虑过让它能“听说读写”,但最终仍仅定位为文字机器人,原因是当时的语音识别技术不成熟,“识别率只有60%,甚至更低”。

早在上世纪90年代就已经出现了商用的中文语音听写系统,用于将人口述的语句转换为文字存储,省却双手打字之累。当时的这类系统必须经过使用者的“训练”才能勉强“听懂”这个人的话,其他人使用则又要再度训练,且对发音、语速都有较高要求。火了一段时间后很快沉寂。

杨宁平2003年回国创业时,国内都谈不上有语音识别市场。当时在美国等一些国家,语音识别技术已经被用于一些企业的呼叫中心,代替人工接线员,但在国内,企业“机器听懂人话”的反应普遍都是“怎么可能”?杨宁平创立上海基立讯科技有限公司(下称基立讯)初期,长年靠其他电话业务勉强维持。

要让机器“听”懂人话,首先要将语音信号转换为机器能够识别的频谱,将其与系统中已有的声学模型进行比对,从而确认发音。虽然每个人说话的时候音量、声调、频率各不相同,但相同的发音转换为频谱后,仍会拥有共同的几项特征。这些特征就是识别不同发音的关键。比如,“方(fang第一声)”“风(feng,第一声)”“分”(fen,第一声)”“粉(fen,第三声),排除声母发音后,不同的韵母和声调会显示不同的特征。

在对发音进行识别的过程中,系统已有的声学模型至关重要。除了要有准确性,还要尽量包容每个人不同的口音。早期建立这一模型的方法,是由使用者本人进行“训练”,通过招募志愿者阅读指定文字收集语音语料建立“说话人无关模型”。但是志愿者量不够大,这导致模型的准确性和包容度皆不足。

上海交通大学电子信息与电器工程学院特别研究员俞凯认为,互联网尤其是云计算技术的应用,是搜集语料的最大助力。“现在一些开放的语音识别平台,像谷歌、百度、搜狗有上千万人在用,能够收集上亿数据。真正的说话人无关模型就是互联网普及后出现的。”

提高识别率的方法还有模糊匹配、领域限制等。对机器而言,发音并不等于文字。例如,发音“feng”,究竟是“锋利”的“锋”,还是“山峰”的“峰”,或是其他同音字,还需要再进一步与语言模型进行比对,找出最接近的一组显示出来。“以往主要是截取一些短语、短句,但是语料丰富、技术发展后,会用一串发音去比对,因此反而是较长的语句识别准确率更高。”杨宁平介绍。

然而,无论研究者将已有技术一步一步改进得多么细致,语音识别在本世纪初都只是一个十分狭小的领域,企业大多较小甚至微小。当时基立讯所有成员一共三人,如今的行业巨头科大讯飞也只是个十多人的“草台班子”。研究者亦多集中于中国科学院自动化所、声学所,及北大、清华和中国科技大学三大院校。他们能够接到的语音识别业务也都十分有限,要么是在大型项目中分一杯羹,要么就是一些试验性的“创新项目”,难称保本,遑论盈利。 拯救者Siri

市场的拯救者Siri在2011年出现了。它将语音技术与人工智能相融合,激发了技术控们的热情。百度、搜狗等搜索引擎纷纷推出语音搜索功能,腾讯则是语音输入法,长虹、联想等则将其引入了智能电视、智能手机等各类家电。

资本热情在2012年爆发。科大讯飞迎接各大机构的密集调研,动辄六七十人集体前往,市盈率也由70倍升至90倍。成立于2012年6月的北京云知声信息技术有限公司更是在成立500天后就获得了高达1亿元的A轮融资,创造了当年这一领域的最高融资记录。

但在袁辉看来,Siri并不等同于语音技术。这款机器人之所以受到追捧,固然是因为“听”“说”能力更像一个“人”。但要像人一样“陪聊”,仅仅会听说远远不够,更重要的是“大脑”。很多人认为Siri是智能语音,但它实际上是机器人,只是以语音形式来互动。科大讯飞像美国的Nuance,而小i就是中国的Siri。智臻科技成立于2001年,小i是其主打的智能机器人品牌。Nuance是一家语音识别技术研发机构,也是Siri的语音转换引擎的提供商。

袁辉自认为,2003年至2011年,其所在公司一直是全球最大的虚拟机器人提供商和运营商。但直到三年前Siri推出,公司方实现盈利。此前则几经艰难,甚至一度靠私人借高利贷维持。

与以往的聊天机器人相比,Siri及类似产品确实显得更加“智能”。此前的一些聊天机器人运用的是关键词抓取技术,根据关键词进行反应。如一句话中出现了“天气”,即便使用者只是无意中提及这个词,得到的回答就是当地当天的天气。经常被逗乐的还有不能判断否定句,如输入“我爱你”和“我爱你才怪”,得到的回答都是“我爱你”。

这源自机器人对语义理解不足。智臻科技资深市场顾问梅莉介绍,仅在银行信用卡系统中,该公司收集到的余额查询表达方式就有200多种,包括“查询余额”这样出现频率较高的,也有“老子还有多少银子”等。只有让机器理解各类千奇百怪的表述和具备逻辑能力,才能真正可以让机器用自然语言交流。

更大的问题在于降噪。车载语音导航设备一度被认为是语音技术应用的一大增长点。然而实际应用中,行驶过程中产生的噪音,往往令机器难以识别语句的语音,导致无法进一步实现交流。这种情况在智能家居领域相对好些,但要识别哪些话是人们的普通交谈,哪些话是对机器人“说”的,难度则又进一层。 解困

Siri之后,机器人的耳朵和大脑都变得越来越“智能”,现在如何让语音智能“有用”成为挑战。

即使有了苹果公司的支持,Siri的“无所不知”之路也难称顺利。多数使用者尝鲜后很快厌倦了Siri,并不真正用这个“助理”查询天气、交通等,也不使用它的语音拨号等内置应用,Siri的“所知”也十分有限,它更像是一个纯娱乐性的聊天机器人。问题是,聊天无法产生价值,换言之就是“没用”。

要让语音智能“有用”,智臻科技找到的出路是客服。小i被广泛用于金融、通讯领域的短信和网络客服,以及社保、财政、街道等政府部门自动问答系统。这种做法的好处是,将服务范围限制在一定领域内,从而提高语音、语言和语义识别的正确率。相较通用语音识别引擎85%的正确率,此类服务的正确率则都在90%以上甚至更高。

招商银行信用卡微信机器人是最受欢迎的七大微信公号之一,其识别正确率目前已达98%。用户在添加这个账号后,可以像真人一样和机器人对话,获得常见问题的回答。用户在绑定信用卡后,则可以查询自己的账单、还款金额和积分等信息,还可以办理分期付款等简单业务,复杂业务亦可由系统直接跳转至手机银行办理。

小i也被用于短信客服系统。一般的短信自助客服系统须经过早已设计好的路径,操作复杂,耗时较长。如要进行余额查询,往往需要经过服务语言、服务大类、服务小类、服务细目的层层选择,而相对智能化的自助客服系统则能直接将客户引至操作层。据称这样做可令招行节省约5000万元短信费用。

智臻科技项目负责人孟庆国估算,银行业每通客服电话的成本大约是5元(包含人员工资、通信费、水电、座席硬件设备等)。2012年招行卡中心客服的人工话务量超过6000万通,若微信的智能互动和自助服务能节省10%的话务量,则招行信用卡中心一年节省的费用大概是3000万元。

IT研究和顾问咨询公司Gartner在2011年的分析报告中就曾指出,截至2011年,全球大约有36家智能机器人系统服务商。在其调查的19家服务商中,收入大于500万美元的近三分之一。Gartner预计,2014年全球1000强公司中至少有20%会采用智能机器人系统来提高服务水平。

尽管如此,语音智能应用仍有长路要走。除人工智能难在通用领域产生价值外,语音识别仍是瓶颈。由于中文方言繁多,对口音甚至方言的识别,需在大量语料积累的基础上,非经济实力和用户基础雄厚不能做到。目前仅科大讯飞陆续公开推广相关识别引擎。

“Siri定位是做个无所不知无所不能的机器人,如果能实现肯定非常厉害,就是变形金刚出现的时候。小i就是在‘变形金刚’这条路上走了八年,最后死掉了。”袁辉认为,这条路不是普通创业者能走的。

上一篇:高效课堂下的阅读“四部曲” 下一篇:隆尧秧歌考察与研究