小声音 大前景

时间:2022-10-06 10:45:36

听到过语音Web浏览器和语音搜索吗?这些新奇的应用并非遥不可及,现代语音输入和处理技术的结合将让这些愿望中的部分很快变成现实,武侠小说中神奇的“传音入密”也不再是天方夜谭。

自然语言交互界面是人类多年以来的一个梦想,有了它,人类生活和工作都将变得更加简单。试想一下,如果在汽车里对着车载GPS说出“找到回家的路”,系统就能给你指出正确的道路; 对着手机说就能查阅电子邮箱、即时信息,听取网络上的新闻; 甚至通过语音直接查询互联网等等。

经过多年努力,语音识别技术获得了快速发展,目前已经广泛地应用于语音合成、声源定位、声纹识别、语音变换、音频内容检索、音频数字水印等各个领域。尽管前景很美好,但并非完全没有挑战,这种挑战主要来自语音输入和处理两个方面。

首先是声音的获取。由于在自然环境中各种噪音的干扰,要想获取“纯净”的目标人音是非常困难的,同时,因为很多语音应用都是在驾车时和行走中完成的,因此麦克风要足够小,甚至要能够嵌入到芯片中去。一种来自富迪科技的新型SAM(Small Array Microphone,小型阵列麦克风)和芯片技术可以有效地解决这一难题。

这种新型SAM的最大特点是可以完全免除回声和噪音干扰。富迪SAM采用了一种独特的波束形成技术,能精确地形成一个对准说话人的锥状窄波束,只接收该说话人的声音,武侠小说中神奇的“传音入密”也完全可以做到。

富迪提供的资料表明,这项新型技术可以消除65分贝的声学回声和20分贝的非平稳噪音,其非线性回声抵消技术可以达到完全无回声的通信效果。尤其是对于在敞篷车内的高噪声和风声,这是目前世界上仅有的能够有效抑制这类噪声的技术。SAM技术使用两个全向位麦克风,其间距甚至可以小于1厘米,本身也极易隐藏。因而能够解决公认最难处理的一体免提通信系统――将扬声器和麦克风集成在一个小壳子内并且扬声器有足够高的音量。目前这种语音输入技术已经广泛地应用于汽车免提/远程通信、PC和笔记本电脑、智能手机/GPS/PDA以及音/视频会议电话系统中。

不过,在解决了声音“录入”的难题以后,声音的“辨识”和处理面临的挑战则更为艰巨。中科院声学所所长田静认为目前音频信号的产生、存储和传输已经不是问题,而音频信号的处理和理解基本还是依赖于人听。这种失衡已经成了音频信息利用的瓶颈。

田静认为目前主要的课题集中于音频信息的检测与识别等方面,需要研究语音关键词检测、说话人识别、语种识别、固定音频检测等特种语音技术。如果这些问题得到了很好的解决,对信息网络中的海量音频数据进行及时、准确地自动监测、定位、跟踪和关联特定内容(如语音内容信息、说话人身份、语言种类和固定音频等)就不是一个梦想。

而语音输入和处理技术的结合将创造许多崭新的应用。除了前面提到的一些有趣应用外,一种应用了语音内容听写技术的新型“录音笔”可以及时地将语音转换成文本文字,彻底改变人工记录语音效率低下的问题,特别是在处理大话务量语音时,能够极大提高人工处理的效率。

不过,在互联网上实现通用的语音搜索还面临比较大的技术难题。声学所中科信利语音实验室主任颜永红博士认为,由于声学和语言模型方面面临的一些技术难题,在未来几年还仅仅能针对特定站点有限度地使用。无独有偶,IBM目前正在与多所大学合作通过语音来操控手机上网,在信息获取后,通过语音Web浏览器输出。尽管还处于初级阶段,但已经让人们看到了其广阔的应用前景。(新城)

上一篇:国产CAD瞄准建筑设计 下一篇:构建及分发BI报表