音频数据检索专利技术综述

时间:2022-10-06 06:08:02

音频数据检索专利技术综述

摘 要:随着计算机技术的快速发展,人与机器之间的交流也越来越广泛,让计算机听懂语音,从海量的音频信息中迅速、有效地检索出所需要的音频信息就变得越来越重要。文章通过检索、统计、分析音频数据检索技术的国内外专利申请,从中获得音频数据检索的申请量趋势、申请人区域分布、重要申请人等信息,并从基于人工信息的音频检索和基于内容的音频检索两个技术分支简单梳理了音频数据检索中关键技术的发展脉络,最后对音频数据检索的未来发展进行了展望。

关键词:音频数据检索;基于内容;人工信息;专利

1 音频数据检索概述

音频数据检索最初使用的是基于人工产生的信息进行检索,例如使用人工标注的标题,艺术家信息等信息用于查询[1]。但随着音频数据的快速增长以及为满足人们对实时音频数据流检索的要求,需要大量的人工劳动且其主观性强的基于人工产生的信息进行检索的技术越来越难以满足用户需求,人们希望能够实时通过一小段未知来源的音频快速地获取其相关的完整信息,于是基于音频内容特征的音频检索技术应运而生。基于内容的音频检索,是指利用音频的频谱、旋律等特征实现检索[2],如通过“哼”某音乐的曲调在海量音频库中查找此音乐,现如今流行的“听歌识曲”就是这一技术的体现,其也代表了音频数据检索的重要发展趋势。对音频数据检索领域相关专利进行分析和总结将有助于了解本领域的研究现状,引导科研人员的研究方向。文章对音频数据检索技术领域的专利年申请量趋势、专利申请区域分布和重要申请人分布分别进行统计分析,并简单梳理了音频数据检索关键技术的发展脉络。文章以截止到2016年6月3日SIPOABS数据库已受理的公开专利数据为基础。

2 专利的整体情况分析

2.1 申请量趋势分析

图1显示SIPOABS数据库中音频数据检索领域的专利申请年度分布图。可以看出,在2000年前处于技术萌芽期,此时专利申请量相对较少。而2000年开始,音频数据检索技术开始进入快速发展期,该领域的技术专利申请量出现持续快速增长;并且在2006年全球申请量第一次达到高峰,而后可能受全球经济形势的影响,专利申请量有所下滑,但是得力于语音识别技术的快速发展,到2012年该技术的申请量再次来到高峰,并且在2012至今每年申请量都保持在高水平。

2.2 申请人区域与重要申请人分析

图2和图3分别示出了国内外该领域专利申请人区域分布图和重要专利申请人分布图。由图2可知,美国、中国、欧洲、日本、韩国是排名前五的国家。其中,美国申请量最大,占比54%。

从图3可以看出,上述该领域的多个重要申请人均是源于这些国家。美国的微软和IBM领先与其他申请人,飞利浦、谷歌、三星紧跟其后,中国的腾讯也有大量的申请。由此得出众多国际知名企业在音频数据检索领域做出的大量研究,且做出了相应的专利布局。

3 音频数据检索技术演进路线分析

为了能够更加全面地了解音频数据检索技术,下面将该技术的基于音频内容特征的检索和基于人工产生的信息检索两个技术分支进行演进路线分析,重点分析两个分支在不同发展时期的关键专利。

3.1 基于人工产生的信息的音频检索

基于人工产生的信息的音频检索是指利用人工产生的信息如标题,艺术家信息,标签,关键词,时间,用户评价等用于查询[1]。1999年IBM申请的使用内容和扬声器信息进行音频信息检索的方法和装置(申请号US19990288724),首次结合了人工标注的信息进行音频检索,实现了根据音频内容和演讲人标识执行查询的音频检索系统。微软及索尼都在该技术上做出进一步研究,分别申请了用于封装媒体对象的代表性样本的系统和方法(申请号CN200480012356)和基于音频搜索条件的搜索系统和搜索方法(申请号CN200780031603)。随后国内公司也在这方面做出大量研究,其中包括关键专利有腾讯申请的音频标签设置方法及装置、存储介质(申请号CN201410025446)在检索效率上做出改进。

3.2 基于内容的特征的音频检索

基于音频内容的特征的音频检索是指如何利用音频的幅度、频谱等物理特征,响度、音高、音色等听觉特征,词字、旋律等语义特征实现与音频内容信息相关的检索[2]。索尼公司申请的专利对于机器人装置的动作教学装置和方法(申请号JP2001091030A)为该技术奠定基础,该申请通过语音识别结合关键词检索方便与机器人对话。此后,国内外对音频指纹、旋律等特征的识别效率和检索效率上不断做出改进,不断推动着音频检索技术的发展。2011年后国内该项技术迎来发展高峰,重大企业公司及重点院校都对该技术申请了关键专利。如腾讯在2011年申请的音频指纹检索方法及装置(申请号CN201110340094)和复旦大学在2013年申请的基于音频指纹特征的音乐检索系统(申请号CN201310378000)都对音频指纹的识别做出改进,提高了检索效率。

4 结束语

音频数据是最重要的多媒体数据之一,随着网络技术的普及,其重要性不言而喻,结合不同的音频处理技术,其在不同领域里的应用也愈加广泛。在智能对话查询系统中,人们通过语音命令,可以方便地从远端的数据库系统中查询与提取有关信息,享受自然、友好的数据库检索服务,也可广泛的应用于远程教学、卫生医疗、数字图书馆、环境监测等领域。

参考文献

[1]李晨,等.音频检索技术研究[J].计算机技术与发展,2008,18(8):215-218.

[2]续鸿飞,等.音频检索综述[J].晋图学刊,2005(6):15-19.

作者简介:邓慧丽(1991,02-),女,汉族,研究生学历,湖北省咸宁人,国家知识产权局专利局专利审查协作湖北中心,专利审查员,研究方向:信息检索,主要从事信息检索方面的专利审查工作。

上一篇:《中医内科学》“1+1”实践教学模式对于中医临... 下一篇:推进中央广播电视节目无线数字覆盖工程建设的...