解析ASR行业,支持“中国制造”

时间:2022-10-03 02:52:35

解析ASR行业,支持“中国制造”

在HCI技术中难度最大的自动化语音识别(ASR)研究从上世纪50年代开始到现在已经历半个多世纪的蓬勃发展,在这期间获得了巨大的进展。

捷通华声作为我国智能人机交互(HCI)技术领域领军企业,也步入了投身HCI领域技术研发与产品化的第十个年头。多年来捷通华声语音、手写识别等HCI技术领域的发展积累大量宝贵的经验,也可以说对HCI领域的感受颇多,尤其是对我国HCI技术的发展与市场前景更是洞若观火。

近期,随着雅虎、微软两大巨头在海外相继高调推出语音搜索应用,语音识别再次成为国内外业界关注的热点话题之一。这标志着自动化语音识别应用进入了产业化、市场化的新时期。

陷入怪圈的朝阳行业

人们都在翘首盼望,随着科学的进步计算机能够与人无障碍的沟通交流,事实上,这也是IT产业的一个发展趋势。很多人为之倾注全部心血,理所当然,市场回报也十分优厚,以其2000亿美元的市场规模让人垂涎。

语音识别特点可以用三个“大”字概括:用户期望大、研发投入大、从理论到技术转换的困难大。这个三“大”特点,使语音识别的发展走进一个怪圈:因研发投资大,故而产品价格不菲,然而质量却无法满足用户过高的期望,从而影响了市场与应用规模扩展。

所以时下流行的大型IVR(互动式语音应答)服务仍然以菜单式问答、用户按键式输入为主,以TTS(语音合成)应答重复率高和答案较标准的问题。语音识别似乎成了一只美味的螃蟹,羡慕者众,但是敢于食之者寥寥。

譬如采用IVR技术的企业呼叫中心,它考虑选择语音识别产品,必定要考察其使用价值;如果语音识别的效果可靠,可以把语音识别作为人工坐席的替代资源,在附加了自己的其他劳动之后最终向客户提供新的使用价值。

如果语音识别产品的使用价值和人工坐席的旗鼓相当,那么投资语音识别即可以替代坐席的价值投入,也即“等值替代”。然而问题就出在其中,尽管ASR能够为买家带来长期的成本大幅下降,却在使用价值上无法实现与人工坐席的等值替代,这就是为什么很多客户不愿做第一个食蟹者的主要原因。

语音识别面临最残酷的现实是,即使是世界顶尖的技术,距离完全替代人工坐席也相去甚远。对公司而言,为研发某产品投入了几百个工程师人年的价值,除了增加风险之外没有太多实际意义,因为价值的尺子掌握在客户的手里。

但是,价格是抓住市场的一个保证。暂时忘记研发成本,用相对过硬的技术开拓市场蓝海,语音识别才能看到胜利的曙光。技术的进步不是闭门造车,无法一蹴而就,它与实际应用必然是交替前进的模式,语音识别如要进一步发展壮大,首先要用有诱惑力的价格吸引用户体验新科技带来的便捷与高效,再由市场回报与反馈中汲取养分,重新注入到技术中,如此形成良性循环,才能够向前迈进。

此外,由于我国对ASR技术的认识相对滞后,对语音识别的认识还存在一定的误区与不理解。

ASR,风雨兼程

语音识别无法提提升客户服务

不少人认为古老的按键式系统已经够用了,语音识别无法提高客户服务。这让人不禁产生疑问:“消费者是否也这样认为呢?”。当然具体问题还要具体分析,要看客户的实际需求而定。如果仅仅是实现功能相对单一的自动化功能,而且客户的业务并没有太多与消费者交互内容的话,那么按键式系统或许已经足够。

然而,当今消费者往往不满意按键式系统。首先,传统的按键模式所能提供的菜单选择有限,使来电者不得不费劲地猜想自己的问题属于哪个类别,且菜单层次往往非常复杂,而来电者在厌烦听取繁琐的菜单选项或者得不到确切的结果后,更乐于直接选择咨询人工服务。其次,传统的按键模式非常不受手机使用者的欢迎,当消费者使用手机拨打号码时,必须频繁地将手机拿开以便按键,这无疑增加了使用者的操作时间与繁琐程度,于是使用者再次直接选择了人工服务。这就无形中增加了人工坐席的工作量,而人工坐席不得不完成一些不必要的工作,IVR系统的效率被大大降低。

借助于语音识别技术的应用上述问题迎刃而解,使用者不必再听候冗长的菜单选项,不必再使用繁琐的按键操作,只需在提示问题的引导下,更加自由的用声音进行操作。这样,不仅避免了使用者猜想自己问题的类别,而且大大节省了操作的时间,从而使其更加集中精力在他所关心的问题。

语音识别技术同时还具备如复杂的拼写输入等传统按键模式所不具备的功能,简化互动和提高整体的客户体验。尤其是当使用者正处在如驾驶状态等不方便按键的环境中时,语音识别技术所带来的便捷,是可想而知的。

语音识别无所不能

鼠标与键盘的输入方式,因其标准化的输入本质所达到的所输即所得的境界,对于评价自由度大大提升的语音输入来说是不切实际的。

长期以来,人们对语音识别技术的期望值过高,认为“语音识别技术应该听得懂一切”。这其实是一种理想的状态,也是科学家与技术人员所一直追寻的终极目标。然而,切合实际的想一想,对于这一目标人们只可能无穷尽地接近它,却无法达到它。举个简单的例子来说, 人与人之间的语言沟通,往往都还会因为语法、口音、噪声、俚语、语种等诸多因素的影响而使彼此听不懂对方在说些什么,对于计算机当然也不能奢望太多。

因此,没有哪种语音识别技术能够百分百准确无误地理解用户的任何语音。当然,可以通过语音提示、纠错与信息确认等方式来弥补语音识别的不足。

中国的语音识别技术落后

正如前文所述,语音识别技术因其自由度的大幅提升导致其技术开发难度增大,国外语音技术虽然起步较早,但其发展速度由于市场成熟度、相关技术发展速度等诸多因素的制约一直进展比较缓慢,且面临的最大技术难题就是的“自然语言”识别,即所谓的“语音识别听得懂一切”,也是迄今为止全球语音识别界无法逾越的鸿沟。

我国对于语音识别技术的研究与产品开发相对国外起步较晚,但追赶的步伐却很快。目前语音识别技术水平已经与国外的技术水平相差无几,而在中文语音识别领域更是由于其强烈的地域特征和得天独厚的条件而领先于国际。

语音识别非常昂贵

相对于国外大公司高昂的研发、运营、维护、广告成本而言,国内语音识别技术含量并不低,同时拥有着更为实际、更有竞争力的价格。在为客户有效降低成本的前提下,带来比国外公司更高的投资回报率,还能让客户在一个更加合理的价位上提高服务质量,让消费者更多地感受语音识别技术带来的便捷。只有这样才能进一步拉近语音识别技术与产品化应用的距离,拉近语音识别技术与消费者之间的距离,进一步促进语音类增值服务的繁荣发展。

洋玩意儿总是好的

不可否认,总体上来说,国外厂商的优势还是非常明显的,其发展较早、资金实力雄厚。然而一味地盲目崇拜国外也是不可取的,俗话说“适合的才是最好的”。

对于语音识别领域来说,正是在这“适合”二字上,国内企业有着国外公司所不具备的、得天独厚的优势。首先,中文语音识别技术是大部分国外厂商所不具备或者不完善的,而对中文语言特点的理解与中国人语言习惯的熟悉正是中国企业的优势之首。其次,高性价比也毋庸置疑地成为国内企业最大的优势之一。再有,国内企业对国内客户的企业文化和业务流程有着良好把握,并提供灵活多样化的产品与合作模式、及时周密的服务、充分的培训、行业特色的解决方案。国外公司在中国的技术研发力量不足、甚至没有;培训人员、服务支持往往要远渡重洋不够及时;解决方案陈旧不符合中国国情,不了解行业特色;产品改造牵扯太多不够灵活主动。最后,国内企业在借鉴吸收国内外大量资源的基础上,结合中国国情、行业特色、集百家之长,逐渐形成了商业的“中国模式”厚积薄发。

打造ASR的“中国模式”

随着中国经济的腾飞,以往单纯的“拿来主义”已经不能满足中国消费者的需求,由于文化背景、民族习惯、知识水平、行业特色、政府政策、法律法规、管理方式等诸多方面与国外的差异,形成了具有中国特色的客户需求。而各行业的商家看准这一市场需求,在原有的基础上加以变革或者干脆原有不合理的东西,推出更加符合中国客户需求的产品、方案、制度、服务、商务合作等一系列的内容就形成了今天大家经常谈及的“中国模式”。

当今企业善用“中国模式”取得成功的案例不胜枚举,如联想、华为、阿里巴巴等知名企业还将“中国模式”成功地改良应用于海外市场,并获得了成功。

作为中国语音识别的领军企业,这些年来捷通华声一直奉行“质量至上、服务第一;薄利多销、份额制胜”的发展宗旨。为了让语音识别应用面积扩大起来,不妨打价格战。同时,研发人员走到用户中去,和他们一起研究问题,以实用为目的,灵活定制。要用坦诚和热情服务赢得客户的理解和支持。服务中不是扔给客户一大本参数手册叫客户去费力调试,如果效果没有达到产品宣称的百分之九十几就归咎于用户的参数没有调节好。而是通过和用户之间的紧密配合,共同发现问题,进行最佳参数配置,进而进行必要的定制。

捷通华声凭借拥有自主知识产权的多项HCI技术(语音合成、语音识别、手写识别)优势和多年的市场经验积累,建立了相对完善的、更加符合中国客户需求的产品、服务与技术支持体系,为ASR在CTI、嵌入式等领域的行业应用铺平了适合“中国模式”的发展道路。

相信未来市场上,“中国制造”将开拓更广阔的一片天地。

(作者为北京捷通华声语音技术有限公司总经理)

上一篇:IPv6时代已然来临 下一篇:游戏内置广告市场群雄逐鹿