模式识别技术范文

时间:2023-09-22 07:21:32

模式识别技术

模式识别技术篇1

关键词:模式识别;发射器;智能系统技术

1 决策树构造原理

1.1 拆分规则

对于决策树的构造来说,拆分规则是用来确定每个节点上应该使用哪个变量,而确定哪些变量的组合把样本分成若干子群同样属于拆分规则的作用。在拆分规则的具体应用中,我们首先需要确定对变量取什么阀值,这一阀值的获取需要首先进行各拆分的设定,图1为简单的分类树样图,结合该图我们不难发现,该图对的阀值为(a,b,c,d),而(x1、x2、x3、x4)是其各特征变量,而由此给分类树得以实现(w1、w2、w3)的不同类划分。值得注意的是对于阀值获取中的各拆分设定来说,我们需要将x∈Rp这一向量包括在坐标条件上[1]。

结合这一分类树样图,我们就需要应用L{(xiyi),i=1,...,n}这一带有标签的训练集进行分类树的具体构建,而在这一构建的分类树中,x1与y1分别为数据样本与相应的类别标签。令N(t)为L中xi∈u(t)的样本数,Nj(t)为xi∈u(t)且yi=?棕j(?撞jNj(t)=N(t))的样本数,定义p(t)=■为p(x∈u(t))基于L的估计;p(?棕j|t)=■为P(y=?棕j|x∈u(t))基于L的估计[2]。

结合上文内容,我们可以就u(t)这一节点t上的上子空间进行拆分,而为了较好保证这一拆分的品质,我们就需要对反映不纯度函数的变化进行度量,这一度量过程需要实现不纯度函数最大化下降,而这一最大化下降的实现就需要得到?祝(sp,t)?艿?祝(t)-(?祝(tL)pL+?祝(tR)pL)的支持,而这本身就属于所有拆分sp的选择。结合?祝(sp,t)?艿?祝(t)-(?祝(tL)pL+?祝(tR)pL),我们需要应用吉尼不纯度准则,这样才能够顺利实现对多种形式?祝(t)的针对,?祝(t)=■p(?棕i|t)p(?棕j|t)就是这一吉尼不纯度准则应用的结果。应用这一吉尼不纯度准则结果进行CART的训练,我们就能够组成单个变量阀值,即sp={x,xk?燮b},这其中的k=(1,...,p),b则在实数范围取值。考虑到要考察拆分数量的限制必要,我们需要限制b只能取一个有限值,而为了避免过量计算,在具体的分类树节点拆分中,我们需要应用剪枝算法结束这种节点拆分。

1.2 剪枝算法

所谓剪枝算法,其本身首先需要形成1棵终止节点具有纯的类别成员的树,这样才能够具体进行剪枝算法的应用。在具体的剪枝算法应用中,我们首先需要进行R(t)的定义,这一定义需要将R(t)定义为给定树T每个节点t相关节的实数。若t为终止节点,t∈■,M(t)为u(t)中不属于与该终止节点相关类别的样本数,而n则为数据点总数。对于实数?琢来说,令R?琢(t)=R(t)+?琢,规定R(t)=■R(t),R?琢(T)=■R?琢(t)=R(t)+?琢。分类中,R(t)是估计错分率,■为表示集合■的基数,?琢为常数,R?琢(t)为分类树的估计错分率复杂度[3]。

在具体的CART剪枝算法应用中,我们就可以令R(t)=r(t)p(t),这里的r(t)本身指的是错分概率的重新替代估计,而结合样本r(t)=1-■p(?棕j|t),o定落入节点t就能够得到较好支持。如果这里的t本身为终止节点,那么R(t)便是指代该节点对总错误的影响。这里我们将Tt用于便是子树,我们就可以对子树与节点t对复杂度代价的影响进行深入分析,结合公式?琢=■,以及最后定义的g(t)=

■,笔者提出了图2所示的原始树举例。值得注意的是,g(t)=■公式为t连接强度的测度。

结合图2所示的原始树,我们可以通过不断进行子树具有最小g(t)值节点的寻找,最后较好发现跟节点,这样我们就可以应用Tk表示第k步得到的树,也能够通过R(Tk)表示最小的子树。

2 智能系统框架设计

(1)目标获取:对于智能系统框架设计中的目标获取环节来说,这一环节需要应用雷达等设备获取具体的目标电子特征信号,这样才能够为后续的智能系统框架设计提供有力支持。(2)目标转换:在获取目标电子特征信号的频率、脉冲重复周期和脉冲宽度后,我们就需要对获取的这类信息进行目标转换,这一目标转化也可以被称为原始信号的预处理。在具体的目标转换过程中,我们需要将目标电子特征信号的频率、脉冲重复周期和脉冲宽度进行放大、整形、滤波以及A/D转换。(3)转换后数字信号的处理:在将目标电子特征信号的相关组成进行放大、整形、滤波以及A/D转换后,我们就可以将转换取得的数字信号送入PC中,结合上文研究中设计好的分类树模块进行具体的分类运算,转换取得的数字信号由此实现智能分类。(4)信号传输:在完成通过终端显示结果后,我们还需要对取得的结果进行信号传输,这一信号传输主要是通过网络化手段实现战场前沿信息与后方的实时共享,这对于我军战斗力的提升将带来较为积极的影响。

3 结束语

在本文基于模式识别与智能系统技术的发射器类型识别方法展开的研究中,笔者详细论述了决策树构造原理、智能系统框架设计,而结合这一系列论述我们就能够较为深入地了解利用分类树原理的发射器类型识别的方法,而这种方法具备的清楚鉴别与每个雷达相关的特征空间区域特征,也使得其本身能够较好服务于我军战斗力的提升。

参考文献

[1]廖雯竹,潘尔顺,王莹,等.统计模式识别和自回归滑动平均模型在设备剩余寿命预测中的应用[J].上海交通大学学报,2011(7):1000-1005.

[2]高海波,徐永红,洪文学,等.基于多元数据图表示的广义统计模式识别[J].微计算机信息,2009(7):267-269.

模式识别技术篇2

 

模式识别技术的应用,使微电子封装工艺得到迅猛的发展。如引线脚数逐年提高,平均每年増加16%,PGA的引线脚数己由300〜400条増到1000条,QFP>400条,BGA>60条,引线节距逐年下降,己由2.54—1.27—0.65—0.5—0.4—0.3—0.15—0.1mm。

 

1基本概念

 

1.1模式识别技术

 

模式是对某些感兴趣的客体的定量或结构的描述,模式类是具有某些共同特性的模式的集合。模式识别就是用计算机来模拟和实现人的识别与理解功能(包括视觉信息与听觉信息),依靠这种自动技术,机器将自动地(或人尽量少地干涉)把待识别模式分配到各自的模式类中去。模式识别技术有统计模式识别(几何方法),句法模式识别(结构方法),模糊模式识别与智能模式识别。模式识别技术广泛地应用于军事(目标识别,定位),公安安全(指纹,声纹,身份证实与识别),地质,石油,资源,农业,医疗卫生与自动化控制中,在微电子工业生产中己得到越来越广泛的应用。

 

1.2模式识别的系统结构

 

模式识别的系统结构如图1所示,分为识别模式与训练模式两部分。先设定训练模式,对训练样本数据采集后把不同特征的非电量,如图像、声音、灰度等转变为电信号,使计算机能够辨识。后经预处理可以滤除干扰、噪声,再经特征提取与选择后进入分类器,提供分类决策。在待识别模式中对待识别样本同样经过数据采集、预处理、特征提取与选择后,从训练模式中的分类器中提取分类决策,得到识别结果。若分类器不能提供目前的分类决策,则得到错误检测,需要更新训练模式,直到重新获得正确的分类决策。

 

其中最重要的一个环节就是特征(基元)的提取与选择。这是一个去粗取精,由量测空间经过变换降维到特征空间的过程。具体到微电子封装工艺中,就是识别元件的图案并确定切割线、粘取点与焊接点等的过程。

 

2模式识别技术在微电子封装工艺中的应用

 

2.1SOT—23塑封工艺的流程及模板匹配法

 

SOT—23工艺是一种二极管、三极管或其他元器件表面贴片塑封工艺。其工艺流程如图2所示。

 

其中前几道工序,如划片、粘片与焊线对整个流程的质量与产量影响很大,而其中所依赖的关键技术就是模式识别技术。在自动化日益发展的今天,任何形式的模式识别技术与人工智能,都能使生产力更上一个新的台阶,实际上,我们剖析开来,在整套貌似先进的SOT—23生产线的工艺过程中,采用的都是比较原始、比较基本的模板匹配法。

 

模板匹配法基本上是一种统计识别方法,就是定义一个标准样本作为模板,输入待识别模式与之比较,也就是看两者是否匹配在一定的误差范围内判断结果。因为每一模板与未知样品匹配得好坏,取决于模板上各单元与样品上各相应单元的匹配与否,若分别处于模板与样品上的绝大多数单元均相匹配,则称该模板与样品“匹配得好”,反之则称“匹配不好”,并取匹配最好的作为识别结果。采用比较多的有光学模板匹配、模拟灰度和数字灰度。SOT—23工艺中采用的就是这种灰度匹配法,提取图像的灰度作为特征基元来作匹配。

 

2.2划片工序中的模式识别技术

 

由于生产的线宽微细化(0.5〜0.25/mm,开发水平0.18〜0.07/mm),并且每四年缩小1/2,为保证数以万计的芯片得到正确、无偏离、无损伤的切割,就需要高标准的采用模式识别技术的划片机。划片工序的流程如图3所示。

 

此工序中,关键是预先对灰度与芯片和间隔宽度的调整与设置,即划片机的核心技术就是运用模式识别中对灰度特征基元的提取与识别,达到自动识别的目的。一般采用手工与自动配置相结合的方法,隔一定的时间进行人工检查以免意外损伤。即使是划片机的一些枝节技术也离不开模式识别技术,如对芯片字符、码确认的字符识别装置,就是对最典型最通用的模板识别技术的应用。

 

2.3粘片工序中的模式识别技术

 

粘片工序在SOT—23工艺流程中尤为重要,是承前启后的关键工序,因为粘片的成功数量决定了产品的产量,粘片的质量直接影响焊线工序的质量,所以粘片工序要解决的问题就是把歪粘、错粘、漏粘数目降到最低水平。由于芯片生产的差异,使不同的厂家的产品在图案灰度与边缘界定上都有很大的差异,所以提高模式识别的能力更为必要。粘片工序的流程如图4所示。

 

选好标准图案后存储到系统中,存储图案灰度就是提取一个特征,其中包括了芯片的大小尺寸和灰度等特征,以此作为模式识别的一个标准模板《,在粘取一个目标与模板比较中,就要处理歪斜、灰度过低等现象。设一个待识别目标的某项指标为石,则内-乃|<(/=1,2,3..,为对应此项的阈值)时可以判断此

 

项指标在所限制的阈值范围内,符合(或基本符合)决策要求。如果各项指标都在其限定的阈值范围内,可以判定此目标与标准模板匹配,即各项指标的总和使机器判断是丢弃或粘取此目标。

 

粘片工序中,在注意熔化温度的同时,随时调整标准模板与选择适当的灰度也尤为重要。

 

2.4焊线工序中的模式识别技术

 

用焊线机把芯片的极点与引线框架焊接起来,引出管腿。由于芯片极点区域窄小,必须保证焊点在极点区域内部,不能有一丝的越出极点边界和拉丝现象,否则,极点间就会短路。与粘片机相比,焊线机必须具有更强的识别能力,并且在一个芯片上面有不同的极点,识别的区域更为多样和细微。

 

焊线工序的识别过程类似于粘片工序。

 

对于小尺度芯片,除了正确地把握金线的熔化温度和焊点大小外,对焊点区域识别的精确把握也是焊线成品质量提高的重要一环,如果对标准模板灰度和坐标位置选择不当,就会导致大量半成品的浪费。

 

同时,焊线工序对粘片工序有很大的依赖性,如果粘片工序中的漏、歪片和熔化过度片很多,自动匹配就无法进行。若设置为忽略不能匹配的芯片,势必造成很大的浪费;若用手工单个焊接不能匹配的芯片,会影响流水线的进程。因此,粘片机与焊线机在某些参数的设置上必须协调统一。

 

3结束语

 

模式识别技术在微电子封装工艺中得到了广泛的应用,在更为复杂的封装工艺中,几乎每一个自动化进程都与模式识别技术相结合。模式识别技术的应用对于提高半导体分立元器件和集成电路的产量与质量,提高集成化和智能化进程具有重大的意义。

 

参考文献:

 

[1]沈青,汤霖.模式识别导论[M].长沙:国防科技大学出版社,1991.

 

[2]李介谷,蔡国廉.计算机模式识别技术[M].上海:上海交通大学出版社,1986.

 

模式识别技术篇3

计算机人脸识别技术概述

计算人脸识别技术属于模式识别范畴,模式识别是通过对具体的个别事物进行观测所得到的具有时间和空间分布的信息,同一类别中模式的总体货模式所属的类别则成为模式类。统计模式识别方法和句法模式识别方法是模式识别的两种基本方法,计算机人脸识别技术就是应用模式识别的方法,这个过程需要需要先对已知信息进行采样量化,继而再转化为计算机可以处理的数据。要研究计算机人脸识别技术,就必须明白计算机人脸检测技术。计算机人脸检测的过程就是在给定的一个空间中来确定人脸的大小和位置的过程。计算机人脸检测的技术方法很多,主要有镶嵌图方法,模板匹配方法,基于人工神经网络方法,可变性模板方法等。通常情况下计算人人脸检测流程为:输入图像—预处理—特省提取—人脸检测—是(不是)。由于计算机人脸识别技术在实际的应用中存在诸多问题,计算机人脸检测技术在这种情况下营运而生。这不仅是计算机人脸识别的前端技术,也在智能监视、内容图像等多领域显示着重要作用和价值。计算机人脸识别技术是利用计算机对人脸图像进行分析,并从中选取有效的识别技术,对身份进行辨别,这个辨别过程可以分为两部分,第一个问题就是“是不是谁”的问题,另一个是“是谁”的回答问题,也就是通常所说的身份识别。计算机人脸识别过程的通常流程为:输入图像—预处理—特征提取—人脸识别—是谁(人脸识别)/是或不是(人脸验证)。计算机进行人脸识别主要基于两大方向,第一个方向是包括人脸特征、人脸密度线分配方法、神经网络方法等整体特征研究方法;第二方向就是将人脸基准点的相对比和其他描述人脸部特征进行参数等结合起来构成的基于部件特征的方法。有学者研究证明,基于部件特征的人脸识别方法没有整体特征的人脸识别方法优点突出。

几种人脸识别方法

基于几何特征的人脸识别方法:嘴巴、眼睛、鼻子下巴等组成部件构成了每一个人的人脸,基于每个部件大小、形状及结构存在各种差异,因此可作为人脸识别的重要依据。Brunelli 小组,用积分投影的方法提取出欧式距离表征的人脸特征矢量进行模式分类,几何特征、变换系数特征、可视特征是图像特征的几种表现方式。基于模板匹配的人脸识别方法:这种方法是利用可变性模板对面部特征进行抽取,这些模板可以变形、平移和旋转,这样就能较好的展现出它们在图像中形状。有学者对基于模板和基于特征的两种方法进行比较,发现基于模板在提高识别率上更有优势,而基于特征的方法在存储量和速度方面有着更好的一面。特征脸方法:这种方法是从主成成份分析导出的一种人脸识别和描述技术,实质上是通过 K—L 变换压缩技术中的一种优正交换来实现的。从理论上来讲,任何人脸图像集合都可以用两个相近的集合进行重建,一是一组标准的图像集合,二是每个人脸的权值集合。这种理论的基本思想就是通过 K—L 交换,得到高维图像的一组正交基,将较大特征的正交基作为特征值,组成正脸空间,而后再将新人脸图像映射到特征脸的空间中,得到一组投影向量,来作为识别的特征向量,而后和库中已知人脸的位置进行比较,最后判断库中的人脸是哪一副人脸。基于小波变换的方法:小波变换是一种时间和频率的局域变换,通过平移、伸缩的方式对图像进行尺寸细化处理,根据使用不同宽带的一系列滤波,成功的从图形中提取信息函数。有研究者用局部尺度和小波分解对人脸图像曲率进行提取继而进行特征识别。还有学者采用矩的方法对此进行预处理,这种方法可以对人脸的平面旋转和伸缩进行矫正。基于神经网络方法:利用神经网络的分类能力和学习能力对人脸进行特征识别和提取,这种方法少了很多复杂的特征提取工作,而且保存了人脸图像中的形状及材质信息。这种识别方法在人脸识别上的应用具有很多优势,由于人脸识别的很多规律无法进行显性描述,但是神经网络却能对这些规律进行隐形表达,比较容易实现。

计算机人脸识别技术的应用

模式识别技术篇4

摘要:本文简要介绍了语音识别技术理论基础及分类方式,所采用的关键技术以及所面临的困难与挑战,最后讨论了语音识别技术的发展前景和应用。

关键词:语音识别;特征提取;模式匹配;模型训练

Abstract:This text briefly introduces the theoretical basis of the speech-identification technology,its mode of classification,the adopted key technique and the difficulties and challenges it have to face.Then,the developing prospect ion and application of the speech-identification technology are discussed in the last part.

Keywords:Speech identification;Character Pick-up;Mode matching;Model training

一、语音识别技术的理论基础

语音识别技术:是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高级技术。语音识别以语音为研究对象,它是语音信号处理的一个重要研究方向,是模式识别的一个分支,涉及到生理学、心理学、语言学、计算机科学以及信号处理等诸多领域,甚至还涉及到人的体态语言(如人在说话时的表情、手势等行为动作可帮助对方理解),其最终目标是实现人与机器进行自然语言通信。

不同的语音识别系统,虽然具体实现细节有所不同,但所采用的基本技术相似,一个典型语音识别系统主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。此外,还涉及到语音识别单元的选取。

(一) 语音识别单元的选取

选择识别单元是语音识别研究的第一步。语音识别单元有单词(句)、音节和音素三种,具体选择哪一种,由具体的研究任务决定。

单词(句)单元广泛应用于中小词汇语音识别系统,但不适合大词汇系统,原因在于模型库太庞大,训练模型任务繁重,模型匹配算法复杂,难以满足实时性要求。

音节单元多见于汉语语音识别,主要因为汉语是单音节结构的语言,而英语是多音节,并且汉语虽然有大约1300个音节,但若不考虑声调,约有408个无调音节,数量相对较少。因此,对于中、大词汇量汉语语音识别系统来说,以音节为识别单元基本是可行的。

音素单元以前多见于英语语音识别的研究中,但目前中、大词汇量汉语语音识别系统也在越来越多地采用。原因在于汉语音节仅由声母(包括零声母有22个)和韵母(共有28个)构成,且声韵母声学特性相差很大。实际应用中常把声母依后续韵母的不同而构成细化声母,这样虽然增加了模型数目,但提高了易混淆音节的区分能力。由于协同发音的影响,音素单元不稳定,所以如何获得稳定的音素单元,还有待研究。

(二) 特征参数提取技术

语音信号中含有丰富的信息,但如何从中提取出对语音识别有用的信息呢?特征提取就是完成这项工作,它对语音信号进行分析处理,去除对语音识别无关紧要的冗余信息,获得影响语音识别的重要信息。对于非特定人语音识别来讲,希望特征参数尽可能多的反映语义信息,尽量减少说话人的个人信息(对特定人语音识别来讲,则相反)。从信息论角度讲,这是信息压缩的过程。

线性预测(LP)分析技术是目前应用广泛的特征参数提取技术,许多成功的应用系统都采用基于LP技术提取的倒谱参数。但线性预测模型是纯数学模型,没有考虑人类听觉系统对语音的处理特点。

Mel参数和基于感知线性预测(PLP)分析提取的感知线性预测倒谱,在一定程度上模拟了人耳对语音的处理特点,应用了人耳听觉感知方面的一些研究成果。实验证明,采用这种技术,语音识别系统的性能有一定提高。

也有研究者尝试把小波分析技术应用于特征提取,但目前性能难以与上述技术相比,有待进一步研究。

(三)模式匹配及模型训练技术

模型训练是指按照一定的准则,从大量已知模式中获取表征该模式本质特征的模型参数,而模式匹配则是根据一定准则,使未知模式与模型库中的某一个模型获得最佳匹配。

语音识别所应用的模式匹配和模型训练技术主要有动态时间归正技术(DTW)、隐马尔可夫模型(HMM)和人工神经元网络(ANN)。

DTW是较早的一种模式匹配和模型训练技术,它应用动态规划方法成功解决了语音信号特征参数序列比较时时长不等的难题,在孤立词语音识别中获得了良好性能。但因其不适合连续语音大词汇量语音识别系统,目前已被HMM模型和ANN替代。

HMM模型是语音信号时变特征的有参表示法。它由相互关联的两个随机过程共同描述信号的统计特性,其中一个是隐蔽的(不可观测的)具有有限状态的Markor链,另一个是与Markor链的每一状态相关联的观察矢量的随机过程(可观测的)。隐蔽Markor链的特征要靠可观测到的信号特征揭示。这样,语音等时变信号某一段的特征就由对应状态观察符号的随机过程描述,而信号随时间的变化由隐蔽Markor链的转移概率描述。模型参数包括HMM拓扑结构、状态转移概率及描述观察符号统计特性的一组随机函数。按照随机函数的特点,HMM模型可分为离散隐马尔可夫模型(采用离散概率密度函数,简称DHMM)和连续隐马尔可夫模型(采用连续概率密度函数,简称CHMM)以及半连续隐马尔可夫模型(SCHMM,集DHMM和CHMM特点)。一般来讲,在训练数据足够的,CHMM优于DHMM和SCHMM。HMM模型的训练和识别都已研究出有效的算法,并不断被完善,以增强HMM模型的鲁棒性。

人工神经元网络在语音识别中的应用是现在研究的又一热点。ANN本质上是一个自适应非线性动力学系统,模拟了人类神经元活动的原理,具有自学、联想、对比、推理和概括能力。这些能力是HMM模型不具备的,但ANN又不个有HMM模型的动态时间归正性能。因此,现在已有人研究如何把二者的优点有机结合起来,从而提高整个模型的鲁棒性。 二、语音识别的困难与对策

目前,语音识别方面的困难主要表现在:

(一)语音识别系统的适应性差,主要体现在对环境依赖性强,即在某种环境下采集到的语音训练系统只能在这种环境下应用,否则系统性能将急剧下降;另外一个问题是对用户的错误输入不能正确响应,使用不方便。

(二)高噪声环境下语音识别进展困难,因为此时人的发音变化很大,像声音变高,语速变慢,音调及共振峰变化等等,这就是所谓Lombard效应,必须寻找新的信号分析处理方法。

(三)语言学、生理学、心理学方面的研究成果已有不少,但如何把这些知识量化、建模并用于语音识别,还需研究。而语言模型、语法及词法模型在中、大词汇量连续语音识别中是非常重要的。

(四)我们对人类的听觉理解、知识积累和学习机制以及大脑神经系统的控制机理等分面的认识还很不清楚;其次,把这方面的现有成果用于语音识别,还有一个艰难的过程。

(五)语音识别系统从实验室演示系统到商品的转化过程中还有许多具体问题需要解决,识别速度、拒识问题以及关键词(句)检测技术等等技术细节要解决。

三、语音识别技术的前景和应用

语音识别技术发展到今天,特别是中小词汇量非特定人语音识别系统识别精度已经大于98%,对特定人语音识别系统的识别精度就更高。这些技术已经能够满足通常应用的要求。由于大规模集成电路技术的发展,这些复杂的语音识别系统也已经完全可以制成专用芯片,大量生产。在西方经济发达国家,大量的语音识别产品已经进入市场和服务领域。一些用户交机、电话机、手机已经包含了语音识别拨号功能,还有语音记事本、语音智能玩具等产品也包括语音识别与语音合成功能。人们可以通过电话网络用语音识别口语对话系统查询有关的机票、旅游、银行信息,并且取得很好的结果。

语音识别是一门交叉学科,语音识别正逐步成为信息技术中人机接口的关键技术,语音识别技术与语音合成技术结合使人们能够甩掉键盘,通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。

参考文献

[1]科大讯飞语音识别技术专栏. 语音识别产业的新发展.企业专栏.通讯世界,2007.2:(总l12期)

[2]任天平,门茂深.语音识别技术应用的进展.科技广场.河南科技,2005.2:19-20

[3]俞铁城.科大讯飞语音识别技术专栏.语音识别的发展现状.企业专栏.通讯世界,2006.2 (总122期)

[4]陈尚勤等.近代语音识别.西安:电子科技大学出版社,1991

[5]王炳锡等.实用语音识别基础.Practical Fundamentals of Speech Recognition.北京:国防工业出版社,2005

模式识别技术篇5

引言

当前对人工神经网络ANN(Artificial Neutron Network)的研究热潮源自Hopfield J.[1]和McclellandJ.等人于20世纪80年表的论文[2],[3]。Hopfield提出了激活函数为非线性的反馈网络,并将其成功地运用于组合优化问题;Mcclelland和Rumelhart用多层前馈网的反向传播学习算法(Back Propagation)成功地解决了感知器不能解决的"异或"问题及其它的识别问题。他们的突破打消了此前人们由于简单线性神经网络感知功能的有限而产生的,使ANN成为了新的研究热点。之后,新的网络结构和新的学习算法层出不穷,目前常见的都已达到几十种。在这些神经网络中,径向基函数RBF(Radial Basic Fuction)网络由于具有强大的矢量分类功能和快速的计算能力,在非线性函数逼近等方面,特别是模式识别领域,获得了广泛的应用,从而成为当前神经网络研究中的一个热点[4]。

模式识别是人工智能经常遇到的问题之一。其主要的应用领域包括手写字符识别、自然语言理解、语音信号识别、生物测量以及图像识别等领域。这些领域的共同特点都是通过对对象进行特征矢量抽取,再按事先由学习样本建立的有代表性的识别字典,把特征矢量分别与字典中的标准矢量匹配,根据不同的距离来完成对象的分类。以识别手写数字为例,字典中有由学习样本建立的10个标准矢量(代表0~0),把从识别对象中抽取的特征矢量分别与这10个标准矢量匹配,矢量间距离最短的就说明别对象与这个标准矢量的分类最接近,进而识别出其表示的数字。

模式识别过程中,产生一个具有代表性的、稳定且有效的特征矢量分类匹配策略,是补偿变形、提高识别率的有效途径,如何确定分类器是识别系统成功的关键。可以说,模式识别的本质就是分类,就是把特片空间中一个特定的点(特征矢量)映射到一个适当的模式类别中。传统的模式识别分类都是基于串行处理的匹配策略:首先由学习样本建立识别基元(字、词、音、像素)的标准矢量识别字典,取取的特征矢量顺序与字典中的标准矢量计算区别得分;最后根据概率做出决策,输出识别结果。当模式类别很大时,识别速度会下降得很快,而近年来,用RBF网络解决这方面的问题得到了很好的效果。

理论模型要求发展神经网络型计算机来实现,但迄今 为止,这方面的工作限于条件还主要集中在传统计算机的软件模拟实现上。大多数学者认为,要使人工神经网络更快、更有效地解决更大规模的总是,关键在于其超大规模集成电路(V LSI)硬件的实现,即把神经元和连接制作在一块芯片上(多为CMOS)构成ANN。正是因为上述的原因,其中神经网络的VLSI设计方法近年来发展很快,硬件实现已成为ANN的一个重要分支[5],[6]。

以下介绍IBM的专利硬件RBF神经网络芯片技术ZISC(Zero Instruction Set Computer),并给出用ZISC设计和实现的一种模式识别系统。

1 用VLSI设计硬件神经网络的方法

神经网络的IC实现是比较困难的,设计者必须把神经系统模型的特性反映到受半导体工艺和IC设计规则制约的电路中去。用VLSI设计硬件神经网络的方法主要分为数字技术、模拟技术和数模混合技术等,下面分别作简要介绍。

(1)用模拟技术实现硬件神经网络

模拟神经芯片通过单元器件的物理性质来进行计算,因而可以获得很高的速度。神经元的核函数计算功能一般由乘法器或运算放大器来完成,而连接权值大多以电压形式存储在电容上或是以电荷形式存储在浮点门上。利用模拟神经芯片不仅可以制造多层前向感知器那样的传统结构,还能从形态上进行如硅视网膜这样的生物仿真设计,从而更有效地模拟生物学功能。

在解决实时感知类的问题中,模拟神经芯片扮演着主要的角色。因为这些问题不要求精确的数学计算,而主要是对大量的信息流进行集合和并行处理,这方面低精度的模拟技术从硅片面积、速度和功耗来看具有相当大的优势。但是模拟芯片的抗干扰性差,设计中需要考虑对环境因素变化引起的误差进行补偿,非常麻烦;它的另一个缺点是,制造一个突触必须考虑权值存储的复杂性,同时要求放大器在很宽的范围内呈现线性[5],[6]。

(2)用数字技术实现硬件神经网络

用高低电平来表示不同状态的数字电路是信息工业中最常用的技术。数字神经芯片有非常成熟的生产工艺,它的权值一般存储在RAM或EPROM等数字存储器中,由乘法器和加法器实现神经元并行计算。对设计者来说,数字神经芯片可以以很高的计算精度(达到32位或者更高)实现神经元核函数。另外,用数字技术实现神经网络时,通常可以采用标准单元库或可编程门阵列直接进行电路设计,这样可以大大减少设计时间[5],[6]。

数字神经芯片不仅具有容错性好、易于硬件实现及高精度、高速度的优点。更重要的是有很多数字电路CAD的软件可以作为设计工具使用。但要实现乘/加运算,需要大量的运算单元和存储单元。因而对芯睡面积和功耗要求很高。为了适应大面积的数字电路的要求,现在很多数字神经芯片都采用了硅片集成技术(Wafer-Scale Integration)。

(3)用数模混合技术实现硬件神经网络

出于上述种种考虑,许多研究人员提出并采用了各种数模混合神经芯片,具有数字及模拟工艺各息的优点而避免各自的缺点,运算速率高,芯片面积小,抗噪声能力强且易于设计。典型的数模混合信号处理部分则全是模拟的。这种结构很容易与其它的数字系统接口以完成模块化设计。近年来在各种数模混合神经芯片设计中,利用脉冲技术的数模混合神经芯片和利用光互连技术的光电混合神经网络芯片得到了广泛的关系,它们代表神经网络未来发展的方向。

尽管数模混合神经芯片有种种优点,但它也存在着一些不足。比如,对于大多数数模混合神经芯片来说,训练学习算法的实现往往需要一个附加的协处理器,这无疑会增加整个神经网络系统的成本和复杂性[5],[6]。

2 RBF网络原理和它的硬件实现

RBF网络是一种有导师的三层前馈网络。它最重要的特点是中间隐层神经元的基函数只对输入剩激起局部反应,即只有当输入落在输入空间的 一个局部区域时,基函数才产生一个重要的非零响应;而在其它情况下基函数输出很小(可近似为零)。网络结构如图1所示。

    图1(a)描述了隐层神经元的作用,其中X=(x1,x2,…,Xn)是输入层的输入矢量;C=(w1,w2,…,Wn)是该隐层神经元的中心矢量(每个隐层神经元的中心徉量存储在其与输入各种神经元之间的连接权中),σ代表宽度(半径);而|| ||表示n维空间中矢量之间的距离(这里的距离不一定是数学意义上的欧几里得距离,在不同的情况下可以有种种含义);f是隐层神经元的基函数,目前用得比较多的是高斯分布函数。

RBF网络每个输出层结点的输出为其与各隐层神经元输出y的加权求和。按高斯分布函数的定义,隐层神经元的输出y与输入矢量x的函数关系应服从正态分布,即当X与中心矢量C的距离很矢时,y接近最大值;反之y值减小。如X与C的距离超过宽度σ(即远离中心)时,输出y可近似为零,相当于对输出层没有贡献。这就实现了局部感知。

不难看出,RBF网络用作矢量分类器时,输入层神经元个数由矢量空间的维数决定,隐层神经元个数由模拟类别数决定,每个隐层神经元的中心矢量(与输入层各神经元之间的连接权)都代表一种模式类别。输入矢量与哪个隐层神经元的中心矢量距离近,哪个隐层神经元的基函数输出就大,相应的模式类别对输出层的贡献就大;与哪个隐层神经元的中心矢量距离远,哪个隐层神经元的基函数输出就小,甚至不激活,输出0,相应的模式类别当然就不会影响RBF网络的输出,矢量和模式类别的分类由此完成。

相对于网络结构的简单,RBF网络权值的训练方法要复杂一些。通常分为下面的两个步骤。

①隐层和输入层之间的权值采用无教师聚类方法训练,最常用的是KNN法(K-Nearest-Neighbor)。它的基本思想是先设定训练样本的一个子集;再用模式分类算法LBG由这个子集形成N种类的模式,即把子集中的样本归类;然后,按顺序处理子集外的训练样本:对任一样本X,找出K个与X距离最近的矢量(随便找,只要近就行),计算这K个矢量分别属于N个模式种类的数目,哪个模式种类包含的最近矢量最多,X就属于哪个模式种类。

将输入的训练样本聚类后,每个模式种类中所有样本矢量的平均值就代表该隐层神经元和输入层之间的权值(中心矢量);而所有样本矢量与中心矢量的平方差的平均值就代表宽度σ。这样就做出了各个隐层神经元的全部参数。因为这种方法只要求输入训练样本就可以进行分类,无须知道训练样本的理想输出,因此被称为无教师方法。

②输出层和隐层之间的权值采用有教师聚类方法训练。简便实用的一种办法是:在确定隐层和输入层之间的权值之后,把训练样本矢量和其理想输出代入RBF网络,从而推出各个输出层神经元和隐层之间的权值。

    可以看出,需要分类的模式类别数的增加总可以通过不断增加三层RBF网络隐层神经元数来实现,含义十分直观。由于其学习过程为两步,且每一步的学习算法都十分有效,所以它的学习速度很快。RBF网络主要适用于解决已知的大规模分类问题,比如图像目标跟踪、面部和双眼的生物图像识别等。

对RBF网络的硬件实现技术,目前存在着不同的观点。但就有大规模分类和实时要求的模式识别问题而言,数字电路技术是最合适的选择,原因有以下几点:

①RBF网络用于手写字符识别、生物图像识别、自然语言理解这样的领域时,需要分类的模式类别数往往成千上万,所以要求隐层神经元数极大,单片神经芯片很难完成。使用数字神经芯片,网络的扩展十分容易,一般不需要逻辑器件而只要电阻就可以完成;而用数字神经芯片由于精度高,理论上可以无限并行扩展,且性能不下降。

②一个实用的模式识别系统,分类的模式往往会随着样本与环境的变化而变化,这就需要不断调整权值。数字神经芯片的权值存在数字存储器中,存储和恢复都很方便。这样用于模式识别系统的RBF网络的权值易变性得到了保证。

③模式识别系统对特征矢量提取对象的预处理是比较困难的工作。预处理效果不好时,RBF网络的输入往往含有噪声。数字神经芯片在抗干扰性方面与其它V LSI技术相比,显然具有无可比拟的优势。

④模式识别的要求包括模糊匹配和精确匹配两种。当用RBF网络实现精确匹配时,模拟技术完成不了这个要求,此时,数字神经芯片是避免错误输出的唯 一选择。

3 ZISC技术及其在模式识别中的应用

虽然人们已经在神经网络的硬件实现上做了大量的工作,并实现了许多不同的网络结构和算法;但是RBF网络的硬件实现工作却了了无几。这说明幅度当前的IC技术实现RBF网络的功能对设计水平的要求是比较高的,因此,本文介绍的这种商业芯片ZISC就成为了模式识别系统的一种有价值的神经网络硬件平台。

无指令计算机ZISC是世界著名的IBM实验室的一项创新性科研成果[7],它采用数字电路技术实现了RBF神经网络及KNN学习算法的集成电路芯片。作为ZISC芯片的合作发明人与授权生产商,美国Silicon Rcognition公司专业从事ZISC技术推广,其生产的ZISC036是一颗含有36个隐层神经元,专门用于各种模式识别矢量分类的集成电路。以下列出了它的一些主要特点与功能:

*使用RBF网络模型,无须编程而只须给它训练样本,即能实现学习和自适应识别;

*全并行运算,模式分类速度与隐层神经元存储的矢量数量完全无关;

*无须逻辑电路即可实现多片ZISC036级连,模式分类数量及神经网络规模没有限制;

*输入和存储的矢量分量数目从1~64个可调(每个分量8位);

*超快速度,64个分量的特征矢量的识别在4.8ms内完成(主频时钟20MHz);

*用寄存器存储神经网络全局信息与神经元信息和权值;

*CMOS和TTL兼容的I/O,TQFP144封装,5V标准电源供电。

不难看出,应用这种神经网络芯片不需要操作系统和编程语言,主要的工作就是训练它和让它学习。因此,用它开发面向消费类的模式识别产品是一种简单且实用可行的方法,可以大大地缩短研发周期。

本文给出了用六片ZISC036级连,通过印制电路板实现的通用模式识别系统。图2为这个系统的总体框图。

系统通过PCI总线接受待识别的模式原始数据。数字存储在2个8MB高速DRAM区中。神经网络控制器选用Xilinx Virtex FPGA,它的主要功能是完成对原始数据的特征矢量提取并输入到ZISC036芯片阵列中。可以使用标准的FPGA开发工具生成不同的RBF文件,从而实现不同的特征矢量提取电路。ZISC036芯片阵列按照三描述的方法一个个顺序接受矢理输入,然后进行并行的学习和分类,识别结果作为输出返回。只要修改FPGA中的特征矢量提取电路和界面程序,就可以实现图像、话音等各种不同的模式识别程序,只要修改FPGA中的特征矢量提取电路和界面程序,就可以实现图像、话音等各种不同的模式识别功能。这个通用模式识别系统的性能以传统CPU或DSP的指标来衡量,相当于13.2GPS(每秒执行132亿条指令)。

用上述系统可以完成如图像目标跟踪、图像识别、数据挖掘等许多实时性要求很高的模式识别和分类功能。以下用一个自适应图像目标跟踪的实验作为例子,视频图片演示结果如图3所示。

图3的视频图片从一段AVI文件中捕获。首先从初始的视频帧中选定汽车的图像,提取其纹理特征作为训练样本输入到ZISC神经网络。然后,ZISC神经网络在后面接下来的视频帧中搜索类似的图像纹理模式并圈定跟踪目标的坐标。如果发现所跟踪目标的模式发生变化,ZISC神约网络能够自动学习新的特征并建立一个新的模式存入神经网络。通过不断地比较已存入神经网络的模式和所跟踪目标之间的区别,系统就能够识别目标,从而在拥挤的背景和变化的环境下始终锁定目标。实验用视频图片为320×240像素,跟踪目标扫描范围为20×20像素。

结语

模式识别技术篇6

[关键词]身份认证;识别技术;生物特征;多模融合;方法;作用优势;分析

中图分类号:TP211 文献标识码:A 文章编号:1009-914X(2014)20-0343-01

随着网络信息技术的推广应用以及网络资源开放化对于实际生活的作用影响,人们一边享受网络资源开放带来的便利和优势的同时,对于保障信息安全性的意识也逐渐提高。身份认证就是一种进行个人信息安全性保障的有效方式,但是,随着信息技术的发展以及计算机信息入侵破坏技术的提升,传统的个人身份认证方式在进行个人信息的安全性保障中,已经存在着很大的安全风险与漏洞。在这种情况下,生物识别技术的突出,为网络个人信息的安全保障提供更加绝对可靠的安全保护屏障。

一、生物特征识别作用优势及其常见技术形式分析

1、生物特征识别的作用优势分析

通过人体固有的生物特征实现个人身份的识别认证是生物特征识别方法的基本思路和原理。通常情况下,应用生物特征进行个人身份的识别认证,主要是由于不同人的生物特征与其他人相比,都具有唯一性的特点,并且每个人的生物特征在固定时期内是不会发生变化的,也就说不同人的生物特征具有相对的稳定性,再加上生物特征作为每个人的固有特征,与其他特征相比,一般情况下也不容易发生丢失或者造假等情况,因此,通过人体的生物特征实现个人身份的识别认证是一种有效可行的识别方式。

2、常见的生物特征识别技术与形式

根据上述内容可以看出,应用生物特征识别技术进行个人身份的认证识别,主要是借助能够进行身份识别应用的生物特征在人体中不仅是普遍存在的,并且不同人的生物特征还具有唯一性特征,再加上在进行个人身份的识别与认证应用中能够对于个人的生物特征进行采集对比,以实现身份的识别认证的思路原理和作用优势,在进行人体生物特征的类型划分中,可以将按照人体生物特征的具体内容性质不同划分为生理性生物特征和行为性生理特征,其中,比较常见的生理性生物特征主要有指纹、人脸以及虹膜、掌纹等,而行为性生理特征具有突出的行为表现,像声音、步态、签名等。结合进行个人身份识别与认证应用的生物特征形式与内容,则可以将用于身份识别认证的生物特征技术总结为笔迹识别、指纹识别、人脸识别、声纹识别、虹膜识别等,它们也是利用生物特征实现个人身份认证识别的常见技术形式。

其中,指纹识别是借助人体的手指末端正面皮肤上凹凸不平的纹线特征,来实现个人身份的认证与判断。通常情况下,人体指纹的纹线会依一定的规律排列成不同的纹型,并且每个人的纹线以及纹型特征都存在有区别,其中以人体纹线中细节特征区别最为显著,也就是人体指纹的纹线起点以及终点、结合点、分叉点都存在有不同,以指纹实现的个人身份认证和识别,就是借助个人指纹中的细节特征的对比实现,同时又由于人体的指纹具有相对突出的稳定性以及唯一性、采集便利性等特征,使得在个人身份认证识别中具有更为突出的识别使用可行性。指纹识别技术进行个人身份识别与认证应用,主要是在对于采集的指纹图像进行增强处理后,通过指纹图像中细节特征的提取,最后进行分类匹配,以实现与指纹特征相吻合的个人身份识别和认证。

其次,人脸识别技术在个人身份识别与认证应用中,具有较为突出的主动性以及用户友好、非侵犯性等特征优势,人脸识别主要是借助二维图像技术实现身份识别和认证,但是在实际识别应用中由于受到个人姿态或者是脸部表情变化、光照等情况的变化影响,导致实际识别应用中存在较大的局限性。因此,要想实现以人脸识别技术实现个人身份的识别认证,需要应用三维信息实现人脸识别。

再次,虹膜识别技术是借助人体眼球前部含色素的环形薄膜实现个人身份的认证和识别,人体虹膜具有丰富的结构与纹理特征。最后,声纹识别技术和笔迹识别技术等生物特征识别技术都是借助人体的声纹与笔迹特征,实现对于个人身份的认证和识别。

二、基于人脸和指纹的多模生物特征融合识别方法

结合上述常见的生物特征识别技术,在进行个人身份的识别认证中,不仅可以通过单个生物特征的提取分析,实现对于个人身份的认证识别,还可以通过多个生物特征的共同联合应用,实现对于个人身份的识别和认证。其中,通过多个生物特征的联合应用进行个人身份识别认证的技术方式就是所谓的多模生物特征融合识别技术,它与单个生物特征识别技术相比,不仅能够实现单个生物特征识应用中的识别率比较低情况,而且很大程度上能够提高整体识别的有效率,具有较为突出的识别应用优势,尤其是在单个生物特征被破坏的情况下,通过多个生物特征的共同识别认证应用,其作用优势更为突出。基于人脸以及指纹的多模生物特征融合识别技术,就是将人脸以及指纹两种生物特征识别方式联合应用,以进行个人身份的有效认证与识别,提高识别有效率。

三、结束语

总之,生物特征识别作为个人身份识别的有效方式,在个人信息安全保障中具有突出优势和作用。通过多模生物特征融合方式实现个人身份的认证和识别,在身份认证识别的质量效率和避免单个生物特征识别局限性上,有着更为突出的作用,值得进行研究和关注。

参考文献

[1] 李雄,张东波.基于GMM-WSUM的多生物特征二级融合识别方法[J]计算机工程与应用.2014(2)

[2] 成谢锋,马勇,张少白,张瑛,郭宇锋.基于数据融合的三段式心音身份识别技术[J]仪器仪表学报.2010(8)

湖南省科技厅计划项目;符振艾,基金项目编号:2014GK3040基于生物特征提取的人脸识别系统设计技术研究

湖南省科技厅计划项目;赵微。基金项目编号:2014GK30401智能银行视频监控系统设计与研究

模式识别技术篇7

获取结构损伤信息的这种方法被笼统地称之为整体检测方法,包括:1)动力特性识别技术;2)神经网络技术;3)遗传算法技术;4)模型修正技术;5)小波分析技术。下文将针对前三种技术展开深入的探讨。

1.动力特性识别法

通过动力测试得到一系列动力响应物理量(动力指纹),并根据这些物理量对结构特性展开分析、判断的方法即所谓的动力特性识别法或者动力指纹法。当工程结构存在损伤问题时,其结构参数将会发生一定的变化,进而造成与之对应的动力指纹发生变化,然后对这些动力指纹展开分析,便可对工程结构损伤展开相应的识别和评估。

应用较为广泛的动力指纹如下:1)频率;2)振型;3)模态曲率;4)应变模态;5)柔度;6)频响函数;7)模态保证准则(MAC)等。以珠江大桥的动力特性测试为例。顺着大桥桥面一共设置了13个测试断面,于各个断面处均设置了竖向(2个)、侧向(1个)加速计,以获取起风条件下或者通船条件下大桥的振动响应。测点布置如图1所示。收集到相应的数据之后,需要借助大型通用有限元结构分析软件ANSYS建立相应的计算模型,并对其振动特性予以有效识别。根据识别信息便可对大桥结构的内部损伤情况进行科学的判断。

2.神经网络技术

人工神经网络技术的出现和应用得益于对人脑系统研究和模拟,其工作原理如下:不同状态下的结构将会表现出不同的反应,对这些反应的基本特征进行有效提取,然后将其中的关键信息作为参数,并将之输入网络,与此同时,将结构损伤信息定义为输出量,从而建立一个损伤分类十分明确的训练样本集,将其送入神经网络展开相应的训练,如此一来,便可在输入参数、损伤信息二者之间建立一个因果的映射关系,不仅如此,经过训练、调整之后的网络还具备了一定的模式分类功能。最后,将相关动力参数传输入人工神经网络,便可获取经过处理之后的结构损伤信息。

以反向传播前馈型多层神经网络模型为例。该模型主要由输入层,还有若干隐含层共同构成,其中,x1,…xn指的是结构损伤识别指标;y1,…yn指的是结构损伤情况;N指的是结构损伤指标以及维数。在应用过程中,需要按照“x*i=xi/max(x1,x2)”这一公式进行归一处理。应用该模型不仅能够实现对结构损伤的识别,而且能够实现对结构损伤的定位,还能够实现对结构损伤程度的标定。

3.遗传算法技术

自然遗传及自然选择机理是这一技术的基础所在。该技术能根据有限的测试信息,快速找到损伤位置,并准确评估其受损程度,即便碰到模态信息不完整的问题,也能够很好地发挥其遗传算法寻优能力。应用遗传算法技术的过程中,仅需对各可行解的目标值展开相应的计算即可,至于目标函数是否具有良好的连续性则不作过多要求,另外,对梯度信息的依赖性也不大。

该技术在搜索处理环节,应用了多线索并行搜索这一先进方式,所以,不会被局部最小问题困扰,不仅如此,还具有使用方便,且鲁棒性强等诸多优点。以应用遗传算法技术对复合材料壳体结构进行损伤识别为例。根据分层损伤变量能够计算出结构存在损伤时的局部弹性模量,,便能够完成对其他形式损伤的有限元模拟。

二、结束语

对于土木工程而言,结构损伤检测识别分析是保证其正常运行、安全运行的一大技术保障,和使用者的生命安全密切相关,因此,受到了社会各界的普遍关注。除了完善现有的结构损伤识别技术之外,致力于新损伤识别技术的研究和应用也是该领域的一大主题。

模式识别技术篇8

关键词:动作捕捉技术;三维人体动作;智能舞蹈教学;运用

中图分类号:G642 文献标志码:A 文章编号:1007-0125(2013)11-0247-01

一、动作捕捉技术

动作捕捉(Motion capture)技术所涉及的内容较为广泛,主要包含有尺寸的测量、物理空间内的物体定位以及方位的测定等。就其技术角度而言,运动捕捉的实质就是对物体在三维空间之中的运动轨迹进行一定程度的测量、跟踪以及记录。一般情况下,具有典型性的运动捕捉设备主要包含了四个组件,分别是传感器、信号捕捉设备、数据传输设备以及数据处理设备。下面就这四个组件进行简要阐述:

(一)传感器:传感器就是一种跟踪装置,一般情况下,它是被设置在运动物体的关键位置,其功能主要是对运动物体的运动位置信息进行提供;

(二)信号捕捉设备:一般情况下,如果动作捕捉系统具有一定的差异性,那么信号捕捉设备也会有多不同,其主要功能是对传感器所提供的位置信号进行有效捕捉;

(三)数据传输设备:对于动作捕捉系统而言,它需要将大量的运动数据从数据捕捉设备传输到计算机系统之中进行处理,同时,这一过程还需要保证传输的准确性与高效性,数据传输设备便是负责这项工作的设备;

(四)数据处理设备:一般情况下,当捕捉到相关的数据之后需要进行一定程度上的修正与处理,在这项工作完成之后,还需要将其余三位模型向进行有效的结合,这样才能完成接下来的操作。

二、三维人体动作的识别

一般情况下,三维人体动作的识别主要包含了三种模式,分别为已分割的动作模式识别、连续的动作模式识别以及实时动作数据流识别。

(一)已分割的动作模式识别:它首先进行一个假设,即每一个动作样本都是事先由人工或者运动机器方法进行分割,同时,它仅仅只包含有一个动作模式。因此,对于已分割的动作模式识别就是要对各个未知的动作模式进行一定程度上的分类,使其归类到已经定义的动作类别当中去。

(二)连续的动作模式识别:对于未知的数据动作而言,它一般都包含了多个动作模式,除此之外,这些动作模式的类型以及首尾帧都是未知的。所以,对于连续的动作模式识别,不能像已分割动作模式的识别一样,仅仅对未知动作直接同训练数据进行匹配识别。相反,连续的动作模式识别应该先对未知动作进行一定程度上的自动分割,并使其成为独立的动作模式,然后再对其进行一定程度的识别。

(三)实时动作数据流识别:这一模式的数据识别最为复杂,一般情况下,它是发生在实际的实时应用当中。对于实时动作数据流的识别之所以如此复杂,主要是以为内其待识别的数据流都是通过现场捕捉而得到的,除此之外,他还要求能够在捕捉的同时进行一定程度上的识别处理,这样一来,识别系统就能够以处理结果为依据,对用户的输入动作进行及时的反应。

三、三维人体动作在智能舞蹈教学中的运用

对于动作捕捉数据而言,它可以对先后动作进行一定程度上的比较,然后再再将比较所得到的信息进行相应的反馈。针对这一情况,本文介绍一种智能舞蹈教学系统,这一系统主要是由C++编程语言以及OpenGL软件包共同实现,在对这一系统进行使用时,有两种模式可以供用户选择,这两种模式分别为训练模式以及舞蹈模式。

训练模式:训练模式主要是供用户进行自主学习。首先系统对相关动作进行一定程度上的捕捉,然后系统根据所捕捉到的动作进行处理,使其以三维动画的形式向用户进行呈现,用户就可以根据系统所提供的三维动画进行自主学习。

舞蹈模式:舞蹈模式全称为自由舞蹈模式。在这一模式之下,用户可以在一定的时间内进行自由舞蹈,在用户舞蹈的同时,系统也会对其动作进行实时捕捉,然后将捕捉到的信息由识别引擎进行识别,这样一来,不仅提高了这一系统的有效性,同时也增添了一些乐趣。

四、结束语

随着动作捕捉技术与三位人体动作识别技术的发展,使得它们在越来越多的领域中得到广泛使用。本文主要针对三维人体动作及其在智能舞蹈教学中的运用进行研究与分析,希望我们的研究能够给读者提供参考并带来帮助。

参考文献:

[1] 杨洋.三维人体动作分析及其在智能舞蹈教学系统中的

应用[D].合肥:中国科学技术大学,2012.

[2] 孙运达.多视点非接触式人体运动捕捉的研究[D].北京:

北京交通大学,2006.

[3] 李晓丹,肖明,曾莉.人体动作捕捉技术综述以及一种新的

上一篇:质量控制措施研究范文 下一篇:计算机审计质量范文