计算机视觉的基本概念范文

时间:2023-12-18 17:27:37

计算机视觉的基本概念

计算机视觉的基本概念篇1

“计算”是一个无人不知无人不晓的数学概念。无论是人们的日常生活,还是平常的生产实践和科学研究,都离不开计算。同时,“计算”也是一个历史悠久的数学概念,它几乎是伴随着人类文明的起源和发展而起源和发展的。但是,真正能够回答计算的本质是什么的人恐怕不会太多。应该说,在20世纪30年代以前,还没有人能够说得清计算的本质是什么,以及什么是可计算、什么是不可计算的等问题。30年代中,由于哥德尔、丘奇、图灵等数学家的工作,人们终于弄清楚了计算的本质,以及什么是可计算的和什么是不可计算的等根本性问题。由此也就形成了一个专门的数学分支——递归论或可计算性理论。在此我们就是以这一理论为背景,概括出计算的本质,并阐明其他一些根本性问题。

计算首先指的就是数的加减乘除,其次则为函数的微分、积分、方程的求解等等;另外还包括定理的证明推导。抽象地说,所谓计算就是从一个符号串f变换成另一个符号串g。比如说从符号串12+3变换成15,这就是一个加法计算。如果符号串f是xx,而符号串g是2x,从f到g的计算就是微分。定理证明也如此,令f表示一组公理和推导规则,令g是一个定理,那么从f到g的一系列变换就是定理g的证明。从这个角度看,文字翻译也是计算,如f代表一个英文句子(由英文字母及标点符号组成的符号串),而g为含义相同的中文句子,那么从f到g就是把英文翻译成中文。这些变换间有什么共同点?为什么把它们都叫做计算?

为了回答究竟什么是计算、什么是可计算性等问题,人们采取的是建立计算模型的方法。从30年代到40年代,数理逻辑学家相继提出了四种模型,它们是递归函数、λ演算、图灵机和波斯特系统。这种种模型各不相同,表面上看区别很大,它们完全是从不同的角度探究计算过程或证明过程的。但事实上,这几种模型却是等价的,即它们完全具有一样的计算能力。在这一事实基础上,最终形成了如今著名的丘奇—图灵论点:凡是可计算的函数都是一般递归函数(或都是图灵机可计算的,或都是λ演算可计算的,或都是波斯特系统可计算的)。这就确立了计算与可计算性的数学含义。这一表述过于抽象,下面我们给出一个比较直观的说法:所谓计算,就是从已知符号串开始,一步一步地改变符号串,经过有限步骤,最后得到一个满足预先规定的符号串的变换过程。现已证明:凡是可以从某些初始符号串开始而在有限步骤内计算的函数与一般递归函数是等价的。这就是说,所有可计算的函数都是通过符号串的变换来实现其计算过程的,即计算就是符号(串)的变换。(1)

与计算具有同等地位和意义的基本概念是算法。从算法的角度讲,一个问题是不是可计算的,与该问题是不是具有一个相应的算法是完全一致的。一般而言,算法就是求解某类问题的通用法则或方法。也就是一系列计算规则或程序,即符号串变换的规则。

正是这样一个原本只是数学中的基本概念,如今却成为各门科学研究的一种基本视角、观念和方法,上升为一种具有世界观和方法论特征的哲学范畴。

我们认为,人类最早把计算作为一种哲学性观念和方法而不仅是一种数学观念和方法,并自觉运用到有关领域的研究中,是一些人工智能的专家们做出的,尤其是在后来的认知科学研究中很明显地表现出这一倾向。由于纽威尔、西蒙、福多、明斯基等一大批学者的努力,物理符号系统假说、心灵的表达计算理论,心脑层次假说等相继提出。这些理论的一个共同主题就是:思维就是计算(认知就是计算)。他们明确主张:思维是一种信息加工过程,亦即计算过程,这种计算就是指某种符号操作或加工,指在能对其提供语义解释的符号代码的形式表达式上所进行的受规则制约的变换,如问题求解这种思维活动就是通过一定的算法对初始态空间进行操作,直达到目标态空间。有人更进一步主张:心灵有一套程序或一组规则,类似于控制计算机的程序,思维是一种包括对单词在内的符号的操作。(2)

除了思维、认知可看作是一种计算,一些研究视觉认知理论的学者把视觉也看作是一种计算。这主要是来自马尔的《视觉计算理论》。这一理论认为,在计算理论层次上,视觉信息处理过程由三种内部表象表征:描述图像光强度与局部几何结构的要素图;描述以观察者为中心的物体可见表面的朝向、轮廓线、深度及其他性质的二维半图;识别和理解物体的三维表象。这个理论把视觉过程理解为功能模块(像元空间、图像空间、景物空间)的变换。这意味着视觉计算的基本单位是符号表象。3在此基础之上,后来人们又提出了视觉拓扑计算理论等各种视觉计算理论。其共同点是均认为视觉过程就是一种计算过程,但是对它是一种什么样的计算还存有较大分歧。

在对认识、思维、视觉等内容进行计算主义研究的同时,人们确立了大脑就是一台计算机的信念:大脑的生物结构是其硬件,大脑的运作规律是其软件,大脑的(广义)思维过程就是其计算过程。20多年前的“计算机能否思维”的问题已经演化为当今的“人脑是否计算”的问题。更重要的是,“思维就是计算”这已不仅仅是一个哲学性的命题,而且已成为科学方法论意义上的一个科学假设。人们早已从科学意义上探究思维的计算本质,计算已成为当前认知科学中占主导地位的一种基础观念和研究方法,人们试图从计算的角度揭示出思维、意识以及整个大脑的全部奥秘。

把计算作为哲学性观念和方法运用到具体学科研究中的另一个范例是与生命科学相关的一些研究。这主要体现在20世纪80年代以来,人工生命科学、遗传算法理论和DNA计算机等新型学科的相继涌现。这些学科或理论的共同之处就在于都是以计算作为自己研究的观念和方法,主张生命就是一种算法,一个程序,一个能够实现自我复制、自我构造和自我进化的算法。人工生命的基本信条是:生命的特征并不存在于单个物质之中,而存在于物质的组合之中。生命的规律是一种动力形式的规律,这种规律独立于45亿年前地球上形成的任何特定的碳化物细节之外。即生物体的“生命力”存在于分子的组织(软件)之中,而不是存在于分子本身。人工生命就在于用计算或算法的观念与方法探索生物学领域中的奥秘。把生命与计算机类比,似乎是19世纪机械论在当今的延续,看起来有背于时展的潮流。但人工生命的奠基者朗顿认为,答案就在于进一步的伟大洞见之中:生命系统这台计算机具有与通常意义上的机器全然不同的组织形式,有生命的系统几乎总是自下而上的,从大量及其简单的系统群中突现出来,而不是工程师自上而下设计的那种机器。朗顿强调说:“最为惊人的认识是:复杂的行为并非出自复杂的基本结构。确实,极为有趣的复杂行为是从极为简单的元素中突现出来的”。4这就是说,生命包含着某种能够超越纯物质的能力,不是因为有生命的系统里被某种物理和化学之外的一种生命本质所驱动,而是因为一群遵循简单的互动规则的简单物体能够产生永远令人吃惊的行为效果。生命就是这样一种生化机器,只要启动这台机器,而不是把生命注入这台机器,即将这台机器的各个部分组织起来,让它们产生互动,从而便具有了“生命”。生命就是这样一种算法。算法对于生命的意义,就在于以过程或程序描述代替对生物的状态或结构描述,将生命表达为一种算法的逻辑,把对生命的研究转换成对算法的研究,特别是把对真实生命的研究转换成对人工生命的研究。 1994年11月美国科学家阿德勒曼在《科学》上公布的DNA计算机理论,更是从另一个角度揭示了生命就是算法,进化就是计算的观念。5DNA是生命的基石,任何生命类型的所有特征都以严格的规则编码在其DNA序列上,不管是生命的结构,还是生命的过程,在这个意义上它是一个信息库或数据库。另外,DNA所有的行为都是以程序化、模块化的形式表现,在这个意义上它又是一个程序库。无论它是作为信息库还是程序库,DNA都具有基本的计算特征。而生物体中所有现象的基本形式都是DNA的复制、切割、粘贴,这一事实深刻表明,生命本身就是由一系列复杂的计算或算法组成的。生命系统就是一台以分子算法为组织法则的多层次生物计算机,DNA计算机就是对生命这种自然计算机的一种表征。从前,分子算法,如自复制自动机、胞格自动机、遗传算法、人工生命等全都是在电子计算机上实现的,DNA计算机概念的出现是分子算法的化学实现的开端。这种立足于可控的生物化学反应或反应系统,无疑更加有力地直接地表明了生物现象与过程的计算特征。正如有人所言:DNA计算宣称数学处于生命的核心。

运用计算、算法观念和方法研究认知问题和生命系统,有着深刻而普适的科学方法论意义,它们是人们运用算法观念和方法研究其他自然现象或自然系统的两个有益的重要范例。如今,计算或算法的观念与方法已经深入到宇宙学、物理学、化学乃至经济学、社会学等诸多领域。计算、算法已经成为人们认识事物、研究问题的一种基本的普适的观念和方法,人们的科学实践,已经使计算、算法上升到哲学性的观念和方法。在这一现实背景之下,我们以为,把计算、算法作为一种哲学范畴正式提出并引入哲学已是十分必要的。这不仅是因为已经有了一些成功的范例,而且还有着更深层的学理:生命、大脑是最复杂的自然现象之一,是自然界进化的最高代表。因此,我们完全有理由猜测:整个自然界也是按算法构成的,是按算法演化的。现实世界之万事万物只不过是算法的复杂程度的多样性。从虚无到存在、从非生命到生命、从感觉到意识、思维,或许整个世界的进化过程就是一个计算复杂性不断增长的过程。这就是说,自然界就是一台巨型计算机(硬件),任何一种自然过程都是自然规律(软件)作用于一定条件下的物理或信息过程(计算过程),其本质上都体现了一种严格的计算和算法特征。生命系统作为自然界中最复杂最有特色的系统,它也就是形形色色的自然计算机中的一种。这或许就是人工生命与DNA计算理论所蕴含的最重要的哲学道理。

把计算、算法作为一个哲学范畴,还有着哲学史上的渊源关系。也许人们还没有忘记,在2500多年前,一位名叫毕达哥拉斯的古希腊人曾向世人宣称:万物皆数。今天,我们何以不能说:万物皆算法。严格地说,当年毕达哥拉斯率先提出的“数”这个重要范畴,并不是一个纯粹哲学性范畴,而是一个从数的角度寻求世界万物之本原,考察事物生成演化过程,由自然科学思维方式与哲学思维方式相互融合的过渡性范畴。这种观念在近代和现代科学与哲学中得到了充分的继承和发扬。这说明,哲学范畴在其生成、演化和发展的过程之中,总要受到各个历史时期数学发展程度、数学思维方式的影响和规定。这或许可以称为哲学范畴的数学规定,正因为如此,当今计算机科学的发展,使得我们完全可以把毕达哥拉斯的“数”向前推一大步。毕达哥拉斯哲学在当代有了更深刻更丰富的内含。

最后我们要指出的是,已经泛化到整个科学领域中的计算、算法这个概念,完全具有哲学范畴的基本特征。众所周知,哲学范畴是反映事物本质属性和普遍联系的基本概念,人类理性思维的逻辑形式。它是人类在一定历史时论思维发展水平的标示器,是帮助人们认识和把握自然现象和社会现象之网的网上扭结;是对自然、社会和思维发展过程最本质、最普遍的联系的表征。哲学范畴对各门具体科学都具有普适的哲学方法论意义。如今,人们在各方面都开始用算法的观念来看待问题、用计算的方法来解决问题,不正表明计算与算法的一种范畴性吗?历史上每次重大的科技进步,都要改变当时的哲学范畴,有时甚至是直接把科学中的基本概念移植到哲学中。当今计算机科技对哲学的影响也不例外。这正是有人所说的哲学范畴的科技命运。因此,及时总结和概括当代科技成果,把最为精华的人类理念上升为一种哲学范畴,不仅是哲学范畴自身发展之所需,更是各门科学文化进一步发展所必须。只有渗透着时代最主要、最有效的观念和方法的科学与文化,才能真正体现时代之精神,成为时代之主流。

参考文献

(1) 莫绍揆.递归论.科学出版社,1987年。

(2) 邱仁宗.当代思维研究新论.中国社会科学出版社,1993年。

(3) (美)D.马尔.视觉计算理论.科学出版社,1988年。

(4) (美)M.沃尔德罗普.复杂.三联书店,1997年。

计算机视觉的基本概念篇2

关键词:大数据;中文标记;图像视频;综合检索

中图分类号:TP311. 文献标识码:A 文章编号:2095-1302(2013)11-0061-03

0 引 言

随着传统数据中心向多媒体数据中心的发展,数据中心服务模式已经发生了翻天覆地的变化。大数据时代的核心特性有两个要点:一是一切都被记录,二是一切都被数字化。随着大数据时代的来临,它带来两个重大变化:一是数据量爆炸性增长,据统计,最近两年来国内各类机房产生的数据量大于2010年以前人类文明所产生的数据量的总和;二是数据来源极其丰富,特别是诸如图像、视频等非结构化数据所占比例逐年增长。从存储方面看,传统数据中心存储内容包括资源信息、业务信息、统计信息、指挥信息等,主要以结构化的数据表的形式存在,现在数据中心存储文本、数字、图像、视频、声音等多种数据形式。这些变化对数据中心检索技术要求越来越高,主要体现在:一是检索载体多样化。现代数据中心需要综合利用磁盘、磁带等综合性数据库。二是检索手段综合化。检索目标由单一的文本检索向文本、图片、视频、声音、地理信息多种目标发展。三是检索时机全域化。新数据文件增加不应中断向用户的服务,保障24 h全天候检索的可用性。因此,为了更好地利用海量图像、视频等非结构化数据,提高图像视频数据的检索效率,同时提高图像视频数据的可用性,有必要对图像视频检索方法进行深入研究。

1 图像视频检索在大数据时代的意义

多媒体信息包括文本、图像、音频、视频等信息。使用关键词检索,只能查询到媒体文件对应的文件名等特征,而无法对媒体文件内容进行查询,所以对于多媒体信息的查询应该不同于简单的文本信息的查询。随着越来越多的视频多媒体形成了海量文档,急需研究新一代的信息检索技术。

现代数据中心的发展具体来说,涉及数字化技术、超大规模数据库技术、网络技术、多媒体信息处理技术、信息压缩与传送技术、分布式处理技术、安全保密技术、可靠性技术、数据仓库与联机分析处理技术、信息抽取技术、数据挖掘技术、基于内容的检索技术、自然语言理解技术等。在众多技术门类中,对视频图像的检索显得尤为重要。本文主要研究基于内容匹配的数据中心图片视频资源的综合信息检索技术,为铁路、水路、公路、航空、交通保障等领域的数据中心建设以及综合性基础性中心多媒体检索技术的发展提供理论参考。

2 国内外的研究现状及动态

国外基于关键镜头关键帧的视频检索技术已经发展了很多年,随着视频数据急剧增加,图像视频检索已经成为一个新的研究热点。从第一届DIAL’04(The first International Workshop on Document Image Analysis for Libraries)开始,图像视频检索就一直被当做专题来研究,近年来,数字图像视频检索受到了极大的关注,DIAL、ICDAR等每次研讨会议均对其进行专题讨论。但是,由于国外图片视频中标记大多采用英文形式,而我国数据中心中图片视频标记是中文的,中英文在笔画排列、字词句构成、组织方式等方面差异太大,他们的视觉特征明显不同,现有的很多方法无法直接被我们直接采用。为了研究我国海量中文图像数据的管理、检索、利用,因此必须研究具有我国自主知识产权的基于中文标记的数字中心图像视频资源综合检索方法。

2.1 基于OCR的文档图像检索

在海量的视频图像数据中,其中一部分可进行正确的OCR识别,进行上下文标记,完全可用传统信息检索技术检索。对于各语系而言,其检索技术是相通的,只是OCR技术不同而已,但受到OCR技术的限制和视频图像本身质量的影响。在许多情况下,OCR识别结果并不尽人意,识别正确率对检索结果影响很大。目前,主要有两种容忍OCR识别错误的方法:一是对查询词进行扩充,估算OCR转换错误,并对OCR误差词进行检索;二是采用单词距离匹配的策略,主要是通过在矢量空间中进行词与词的匹配,计算出查询词与OCR识别目标的距离来排序。采取这两种检索误差容忍技术后,检索正确率明显提高,但统计显示,当OCR识别正确率低于75%时,视频图像检索质量将很难达到用户满意。

2.2 基于图像特征的图像视频检索

视频资料中,大量的关键帧、镜头是不能进行OCR识别的,主要有以下几个方面原因:其一是技术限制。由于OCR技术本身的局限,对于非规则字体、复杂背景、图像质量差、字符严重形变/扭曲、字符分割不完整等情况,OCR无能为力。即使能部分识别正确,但需要大量的人工校正,效率很低。其二是功能限制。对于签字或者印章等需要用于确定性的具有法律效力的文件,不适合采用OCR进行识别。例如,史料文献、名人手迹、重要的人工标记与墨迹、书法书画等也只能以文档图像的格式呈现。

基于图像特征的检索技术已经被越来越多的专家学者所研究。基于图像特征的检索过程与CBIR(Content Based Image Retrieval)过程相似,但技术迥异。CBIR常用的颜纹理等基本特征不再有效,必须根据文档图像本身特点,抽取相应图像视频特征及规律进行检索,目前研究主要集中于基于内容相似性和基于关键词检索。基于文档凸显内容相似性的建设主要是抽取基于文档全局特征与基于帧图像的局部特征来进行。全局特征主要有字符纹理统计、直方图统计、字符投影分布、字符行统计等,而局部特征主要是字符图像块的区域宽度、位置与面积等。还可将帧页面分为多层网格,抽取每个网格特征,进行基于网格的相似性比较。为了克服网络尺寸最优选择的一些问题,Cesarini、Mairinai等利用基于MXY树进行检索,在图像区域分割时建立MXY,综合全局特征与MXY树结构特征形成特征矢量进行相似性比较。

2.3 基于标记的图像视频检索

在基于空域语义上下文的概念标注优化中,Jiang等人基于概念之间的相关性学习得到一个语义图模型,在对某个镜头进行标注时,首先得到各个概念对于这个镜头的预测结果,然后利用这个图模型对预测结果进行平滑优化,并且在这个过程中考虑数据跨域的问题,即训练语义图模型的数据和对之进行优化的数据来自于不同的域,取得了较好的结果。Smith等人提出了一种Discriminative Model Fusion (DMF)方法,该方法将不同概念检测子对镜头的输出概率形成一个向量,然后以这个向量为镜头特征进训练,并预测概念标注结果。Jiang等人对这个方法进行了修改,加入了用户提供的标注信息。这些方法的问题在于,它们受限于语义词典的大小,只在词典中的概念数目较少的时候证明比较有效。

3 基于中文标记的数据中心视频图像资源综合检索方法

3.1 主要技术原理

在大数据时代,针对数据中心中文视频图像的特征,本文研究提出一种基于中文标记的数据中心视频图像资源综合检索方法,主要技术原理框图如图1所示。

图1 基于图像视频检索的数据中心存储体系结构和服务架构

3.2 主要方法

好的存储结构是检索的前提和关键,也是检索的方法之一。本文所采用的检索方法采用一种复杂应用环境下数据中心体系结构和服务架构。

首先,采用特征描述的视频图像检索方式。特征提取是图像处理中的一个初级运算,也就是说它是对一个图像进行的第一个运算处理。它检查每个像素来确定该像素是否代表一个特征。假如它是一个更大的算法的一部分,那么这个算法一般只检查图像的特征区域。作为特征提取的一个前提运算,输入图像一般通过高斯模糊核在尺度空间中被平滑。此后通过局部导数运算来计算图像的一个或多个特征。有时,假如特征提取需要许多的计算时间,而可以使用的时间有限制,一个高层次算法可以用来控制特征提取阶层,这样仅图像的部分被用来寻找特征。由于许多计算机图像算法使用特征提取作为其初级计算步骤,因此有大量特征提取算法被发展,其提取的特征各种各样,它们的计算复杂性和可重复性也非常不同。

其次,数据中心图像视频文档特征提取和索引建模技术是高效检索的关键。如前所述,视频内容本身包含丰富的视觉上下文信息,这些上下文信息是自然存在的,而不是相互独立的,一般可分为两类,即空域视觉上下文信息和时域视觉上下文信息。空域视觉上下文是指视觉帧内部的视觉信息之间存在的相关性。本项目针对空域视觉上下文信息和时域视觉上下文信息进行建模,为图像视频的快速检索提供基础。

4 基于中文标记的图像视频综合检索特点

基于中文标记的图像视频综合检索方法主要有以下特点。

首先是提出了特征描述方法。对于一个给定的视频镜头,在三维网格上进行采样,对于采样得到的点进行聚类,形成视觉词典,把每个采样点映射到特征空间离它最近的那个视觉词。这样,一个视频镜头就可以看作是一个由视觉词组成的立方体结构。然后,根据视觉词在立方体结构中的相对位置,把它们看做一个视觉词的序列,并用一个扩展的马尔科夫链对之进行建模。这样,视觉词在时空域中的关系可以用该模型中的状态转移矩阵进行描述,并和原始的Bag-of-words特征结合,作为视频内容的特征描述,可以有效提高其区分不同内容视频的能力。我们把该特征应用到两个不同的问题中,即视频概念标注和动作识别。

其次,提出一种两阶段的视频概念标注优化方法。思路大致如下:一方面,分别利用星型结构和链式结构的Conditional Random Filed(CRF,条件随机场)对视频中的空域语义上下文和时域语义上下文进行建模,并借用其训练预测方法完成优化过程。和现有方法相比,本文方法能够更为准确地对概念之间的相互关系进行描述。利用训练集中人工标注的语义信息,体现人类对于视频内容和语义概念的理解,该方法能够有效提高概念标注的结果。由于训练数据的局限性和问题本身的复杂性,基于语义上下文的优化方法不可能完美地对概念之间的关系进行建模,因此,本项目提出一种基于半监督学习的调整方法,作为基于语义上下文优化方法的有效补充:认为得分较高的镜头被进行了正确的标注,通过在视频镜头之间建立图结构,利用视觉上的相似性,采用半监督学习的方法用概念标注中置信度较高的优化结果对其余结果进行调整,能够进一步提高视频概念标注的准确率。

最后,提出一种基于颜色聚类和多帧融合的视频文字识别方法。主要思路大致如下:首先,在视频文字检测中,统一考虑了文字区域图像的两个明显特征—— 一致颜色和密集边缘,采用近邻传播聚类算法,基于图像中边缘颜色的复杂程度,自适应地把彩色边缘分解到多个边缘子图中,使得在各个子图中检测文字区域更加准确。其次,在视频文字增强中,根据文字笔画强度图,过滤掉模糊文字区域,并综合平均融合和最小值融合,对在不同视频帧中检测到的,包含相同内容的文字区域图像进行融合,能够得到背景更为简单,笔画更为清晰的文字区域图像。再次,在视频文字提取中,一方面,通过自适应地选取具有较高文字对比度的颜色分量进行二值化,能够得到比现有的方法更好的二值化结果;另一方面,基于图像中文字与背景的颜色差异,利用颜色聚类进行噪声去除,能够更为有效地提高文字识别率。实验证明本文提出的基于中文标记的图像视频检索方法能够较好地完成视频图像检索。

5 结 语

大数据时代数据中心检索载体多样化、检索手段综合化、检索时机全域化,各类数据中心不仅存储容量急剧增加,而且视频、图像等多媒体数据比重逐年增加,因此提高检索效率,增加数据的可用性成为多媒体数据中心的重要任务。多媒体数据检索方式多样,检索原理复杂,目前还处于起步阶段,伴随我国经济社会的快速发展,大数据时代即将来临,各行各业数据的不断融合,图像视频检索必将大显身手。

参 考 文 献

[1] BERG A C, BERG T L, MALIK J. Shape matching and object recognition using low distortion correspondences [C]// Proceedings of 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. [S.l.]: IEEE. 2005, 1: 26-33.

[2] GRAUMAN K, DARRELL T. Pyramid match kernels: discriminative classification with sets of image features [C]// Proceedings of 2005 Tenth IEEE International Conference on Computer Vision. Beijing, China: IEEE, 2005, 2: 1458-1465.

[3] WALLRAVEN C, CAPUTO B, GRAF A. Recognition with local features: the kernel recipe [C]// Proceedings of 2003 Ninth IEEE International Conference on Computer Vision. Nice, France: IEEE, 2003, 1: 156-264.

[4] CSURKA G, DANCE C, FAN L, et al. Visual categorization with bags of keypoints [C]// Proceedings of Workshop on Statistical Learning in Computer Vision. [S.l.]: SLCV, 2004: 1-22.

计算机视觉的基本概念篇3

关键词:计算机;视觉技术;应用;分析

中图分类号:TP37 文献标识码:A 文章编号:1009-3044(2016)03-0242-02

计算机人工智能技术中的一项重要技术就是计算机视觉技术,这种技术主要是让计算机利用图像来实现认知环境信息的目的,这一目的的实现需要用到多种高尖端技术。近年来随着计算机技术以及计算机网络的普及与发展,计算机视觉技术也得到了较快发展,并且在实际生产与生活中的应用也越来越广泛。

1 计算机视觉技术概述

1.1 基本概念

计算机视觉技术主要研究计算机认知能力的一门技术,其具体主要是通过用摄像机代替人的眼睛,用电脑代替人的大脑,最终使计算机具备类似于人类的识别、判断以及记忆目标的功能,代替人类进行部分生产作业。人们目前研究的人工智能技术中的一项重要内容就是计算机视觉技术,通过研究计算机视觉技术可以让计算机拥有利用二维图像认知三维环境的功能。总的来说,计算机视觉技术是在图像与信号处理技术、概率分析统计、网络神经技术以及信息处理技术的基础上,利用计算机来分析、处理视觉信息的技术,它是现代社会新兴起的一门高新技术。

1.2 工作原理

在亮度满足要求的情况下,首先使用摄像机对具体事物的图像信息进行采集,利用网络把采集到的图像信息向计算机内部输送,然后在计算机系统内部处理加工图像信息会把事物的原始图像得到,随后利用图像处理技术进一步处理原始图像,获得优化质量效果之后的图像,分类与整理图像中有特征价值的信息,通过智能识别技术识别与描述提取到的图像信息特征,最后把得到的高层次的抽象信息存储起来,在进行识别事务时分析对比这些储存信息就可以实现事物的识别,这样视觉系统的基本任务也就完成了。其具体视觉系统如图1所示:

1.3理论框架

人类研究视觉技术虽然起步比较早,但取得较大进步是在20世纪80年代初伴随着视觉计算理论的出现。它的出现把研究视觉理论的策略问题解决了,视觉技术是一项特别复杂的信息处理过程,要想对视觉的本质准确完整的理解,必须从不同角度与层次研究与分析视觉本质。视觉计算理论研究层次大致可分为:计算机理论、算法以及实际执行。站在计算机理论的角度分析视觉技术,我们可知必须用要素图、维图、以及三维模型表像来描述视觉信息。

所以,可以把计算机视觉技术当做从三维环境图像中抽取、描述与解释信息的过程,其主要分析步骤可分为感觉、处理、描述、识别、解释等。若依据上述各过程实现需用到的方法与技术的复杂性划分层次,可大致把计算机视觉技术划分为:低层视觉处理、中层视觉处理、高层视觉处理三个层次。

2 计算机视觉技术在自动化中的应用

2.1 农业自动化中计算机视觉技术的应用

在农业自动化中应用计算机视觉技术可以全天候实时监测农作物的生长状况,便于科学管理农作物。还可以应用计算机视觉技术来检测农产品的质量,例如可以应用计算机监测技术来监测大多数蔬菜的质量,传统的人工检测蔬菜质量的方法,不仅费时费力,而且检测结果的准确性也不能很好的保证,在实际人工检测过程中还容易伤害蔬菜,可以通过利用计算机视觉技术来感应蔬菜自身释放的红外线、紫外线以及其他可见光的能量大小,然后和质量达标蔬菜的光线能量大小进行对比,根据这些对比结果可以把蔬菜质量的好坏准确判断出来,在蔬菜质量检测过程中应用计算机视觉技术,把传统的蔬菜检测方法完全颠覆了,极大的方便了农产品的质量检测,由此可见,计算机视觉技术在农业生产中有很高的使用与推广价值。

2.2 在工业自动化中计算机视觉技术的应用

计算机视觉技术在工业自动化应用的一个重要领域就是可以精密测量零件尺寸,其测量与被测对象的原理如图2所示。

光学系统、计算机处理系统以及CCD摄像头,是计算机检测系统的主要组成,被测物体由光源发出的平行光束进行照射,利用显微光学镜把待检测部位的轮廓图像呈现在摄像机的面阵CCD上,然后再通过计算机处理这些图像,进而把被测部位的轮廓位置信息获取下来,若被测对象是出现位移时,可通过两次重复测量,利用两次测量的位置差就可以得出,被测物体的位移量。

此外计算机视觉技术还可以应用于逆向工程中,应用3D数字化测量仪可以快速准确的测出现有工件轮廓的坐标值,同时还能构建曲面,保存成CAD或CAM图像,把这些图像送入CNC制作中心加工,便可制作出产品,这也就是所谓的逆向工程。由上述分析我们可知逆向工程要想实现,最关键的一环就是如何通过精密测量系统来测量样品的三围尺寸,获得各部位数据,进而做曲面处理进而加工生产。对于这一难题我可以通过利用线结构光测量物体表面轮廓技术来实现,器具体轮廓结构示意图如下图3所示。

这种测量方法的工作原理为:利用激光穿越平行、等距的振幅光栅组件,或直接采用干涉仪发出的干涉条纹,形成平面条纹结构光,再向物体表面投射,由于物体各表面的深度与曲率的不同,条纹会自动出现变化,然后再通过使用CCD摄像机对变形条纹进行拍摄。这样就可以把物体表面轮廓的变化情况分析出来。摄像机在拍摄图像的过程中,把图像信号转化为模拟信号,再转化为数字信号,然后经过传送再还原信号到图形处理系统,就得到三维轮廓图像。

在工业自动化中计算机视觉技术的深入广泛应用,不但使工业产品的生产质量得到了保障,而且跨越式的提高了工业产品的生产速度。如计算机视觉技术可以很好的检测产品包装质量,封口质量以及印刷质量等等,如我国重点指定的印刷造币机器的南京造币厂,由于货币制造印刷是由印刷造币机器来实现的,所以要严格要求其生产工艺,一丝一毫的生产差错都不允许存在,为了保障印刷制造出来的造币机器质量完全达标,必须严格精确检测生产出来的成品。在印刷造币机器的过程中要求要有非常高的计算机视觉技术,随着计算机视觉技术的不断进步,计算机视觉技术已经对印刷造币机器的需求完全满足了,实际的应用效果也非常理想,印刷造币机器在实际生产的过程中,南京造币厂把计算机视觉技术应用在了每个应刷造币机器最后的生产工序上,硬币受到重力下落的瞬间,计算机视觉技术可以瞬间采集图像的信息,准确拍摄硬币在下落过程中的图像,通过高速光纤传感器可以把硬币图像向计算机系统快速传输,利用计算机系统处理信息与识别信息的超强能力,可以及时识别硬币质量,经大量实践研究得出,在印刷造币机器上应用计算机视觉技术已经几乎没有检查差错现象的发生,由此可知,在工业自动化中计算机视觉技术的应用不但可行,而且发展空间还很大。

2.3 在医学自动化中计算机视觉技术的应用

在医学领域计算机视觉技术也得到了广泛应用,如医学中经常用到的CT图像以及X射线图都用到了计算机视觉技术,这些技术的广泛应用很大程度上方便了医生准确判断病人病情,另外,在生产药品的过程中,应用计算机视觉技术可以高效检测药品包装的合格与否,其基本流程是:传送装置先准确运输药品到指定位置,传送装置自身又可分为检测与分离两个区域,在传送药品的过程中药品的图像信息会被特定的摄像机采集,采集完成后向计算机系统传递采集信息,然后计算机系统会分析与处理这些信息,把没有包装好的药品自动识别出来,并且向分离区传递识别信息,分离区的自动装置会依据传输的分离信息,隔离开没有包装好的药品,这样就可以有效分类包装好的药品与没有包装好的药品,在药品包装检测方面应用计算机视觉技术代替传统人工检测,不但可以实现药品准确无误的检测,而且还可以大大提高检测药品包装质量的效率,完善了药品生产的自动化,由此可见,在医学自动化中应用计算机视觉技术可以积极促进医学自动化的发展。

3 结束语

总之,计算机视觉技术是一门研究计算机识别能力的高新技术,它涵盖了很多其他技术,具有一定复杂性。要想使其在自动化生产中得到更好地推广与应用,我们必须在明白其基本概念、工作原理以及理论框架的基础上,结合实际生产情况,不断进行深入研究,只有这样才能使计算机视觉技术得到更好地推广与应用,才能使这项现代化的高新技术更好的服务于社会,服务于人类。

参考文献:

[1] 龚超,罗毅,涂光瑜.计算机视觉技术及其在电力系统自动化中的应用[J].电力系统自动化,2003(1).

[2] 李永奎,刘冬.计算机视觉技术在农业生产中的应用[J].农业科技与装备,2011(6).

[3] 郭联金,朱日龙,杨国卿,等.浅谈机器视觉技术在自动化制造业中的应用[J].机电一体化,2015(8).

计算机视觉的基本概念篇4

    学生的数学能力是影响学生学习数学的重要因素。中央教育科学研究所赵裕春研究员认

为,数学能力主要 有运用数概念的能力、基本能力(概括、推理)和空间关系的知觉能力

等三种,探讨这三种数学能力发展水平 及其各自对小学三年级学生学习数学的影响程度如

何,这对于有的放矢地进行小学数学教学具有重要意义,也 是现代数学教育心理领域研究

的重要课题。我们通过问卷测查,对小学三年级学生数学能力进行多元回归分析 ,试图寻

找这三种数学能力发展水平及其分别影响学习数学的程度大小;为提高小学数学的教与学的

效率提供 一些心理学依据。

    二、调查过程、结果与分析

    (一)调查问卷

    本调查采用中央教科所组织的小学生数学能力研究协作组编制的《小学生数学能力测验

(三年级)》。这 套测验由62个试题组成,内容包括:数的概念,数的概括和推理以及空

间关系等三方面。这套“测验”经过 全国性测试,具有较高的信度和效度,题目的难度相

当,鉴别力强。

    (二)调查过程

    选取桂林市清风实验学校小学三年级(91级)的全体学生(120人)作为调查对象。

采用团体测验的 方法,严格按《数学能力测验(三年级)实施说明书》进行。全套测验共

62小题,分两次做完,每次一节课 ,评分按统一标准进行,满分62分。收回有效鉴卷

111份。

    (三)调查结果与分析

    1.清风实验学校小学三年级学生数学能力的发展状况。

    表1 数学能力发展水平与全国相比

    (附图 {图})

    从表1的结果可知,清风实验学校小学三年级学生的运用数概念能力、基本能力(概括

和推理)和空间关 系的知觉能力分别与全国小学三年级学生相比,两者具有显著的差异(P

值小于0.05),也就是说,在这 一测试中,该校小学三年级学生的运用数概念能力、基

本能力和空间关系的知觉能力都分别比全国同等水平的 高。从数学教学这一侧面来看,清

风实验学校小学三年级整体教育改革取得了一定的成效。

    2.小学生三年级数学能力的回归分析

    以小学三年级学生的数学成绩作为因变量,以学生的三种数学能力测验成绩为自变量,

并将三个自变量的 值统一转换成均数为0,标准差为1的标准分数(Z分数),进行多元回

归分析,结果如下:

    表2 数学成绩对三种数学能力回归有效性的检验 复相关系数 R=0.433 回归变

差 u=2443.929 F=8.232 剩余变差 Q=10588.487 sigF

=0.0001

    结果表明,这一回归具有显著的统计意义(P<0.01),即是说,在一定程度上,

学生数学成绩的差 异,能够由运用数概念的能力,基本能力(概括和推理)和空间关系的

知觉能力的水平差异做出解释。

    既然这三种数学能力都对数学成绩产生显著影响,那么,它们中哪个影响更大?为此,

进一步将三种数学 能力对数学成绩做三元回归,结果如下:

    表3 概念、基本能力和空间关系对数学成绩的三元回归分析

    数概念 基本能力 空间关系 标准偏回归系数 (β) 0.297 0.183 0.2

26

    t 4.55 2.77 3.28

    p 0.000 0.008 0.000

    上表数据显示出每个变量的回归系数,β[,概念]>β[,空]>β[,基],且三

者的β值均具有极 显著的统计意义,P<0.01。这一结果说明,影响小学三年级学生

学习数学的三种数学能力中,影响程度 最大的是运用数概念的能力,其次是空间关系的知

觉能力,再次是基本能力(概括和推理)。

    三、结论与建议

    (一)结论

    1.与全国小学三年级学生相比,桂林市清风实验学校小学三年级学生的运用数概念能

力,基本能力(概 括和推理)和空间关系的知觉能力都较高。

    2.小学三年级学生运用数概念能力、基本能力和空间关系三者的知觉能力,都显著地

影响着学生数学成 绩;且这三种数学能力中,影响程度最大的是运用数概念能力,其次是

空间关系知觉能力,再次是基本能力( 概括和推理)。

    (二)建议

    1.应加强小学三年级学生运用数概念的能力培养。

    根据上述结果,影响小学三年级学生学习数学的三种数学能力中,影响程度最大的是运

用数概念的能力, 即β[,概念]>β[,空]>β[,基]。由此,在小学三年级的数学

教学中,应加强学生运用数概念的能 力培养。从测查看,清风实验学校小学三年级数学教

学的成功经验在于重视数概念的教学。然而,有不少小学 数学的教学中,常只重算法,忽

视数概念的掌握和算理的理解。因而只能机械地应用学过的东西,或简单地模 仿做过的例

题,不能在变化了情况下迁移;或者只知道一些定义,而不能全面掌握属于这一概念的东西

(例如 ,学生能说出什么是圆的半径,但在作图或解题时又常常只能举出垂直方向上的半

径),不能反转过来去解决 逆向问题,没有纳入到一般的范畴或嵌入数概念体系的认知结构

中去。所以在小学数学教学中,不仅要重视算 法和演算过程,尤其要重视数概念的掌握和

算理的理解,加强小学生运用数概念的能力培养。

    2.重视和加强发展小学三年级学生空间关系的知觉能力。

    空间关系同数量关系一样也是数学能力的基本内容,而且数和形是不可分开的。因此,

学生掌握空间关系 的知觉能力也是小学数学能力的重要组成部分。然而不少的数学教学方

法,偏重于抽象逻辑思维的训练,造成 了人的智力开发的残缺。当前许多教育整体改革实

验,都提出使学生和谐发展,这都与充分开发脑功能有关。 根据我们的结果分析,影响小

学三年级学生学习数学的三种数学能力中,空间关系的知觉能力的影响程度仅次 于运用数

概念的能力,且比基本能力(推理和概括)大。这就要求我们在小学数学教学中更不能忽视

空间关系 知觉能力的发展。而我们的统计结果表明,小学三年级学生的空间关系的知觉能

力很低,在有关空间关系的8 小题中,学生答题的平均通过率仅为40.4%。可见,重

视和加强发展小学三年级学生空间关系的知觉能力 是十分必要的。

    参考文献:

    1.赵裕春主编:《小学生数学能力的测查与评价(低年级)、(中年级)、(高年级)》,

教育科学出 版社1987、1989、1991年版。

    2.(日)四方实一著:《算数问题解决四心理》,明治图书昭35。

    3.白先同编著:《教育心理学教程》,广西师范大学出版社,1992年版。

    4.白先同主编:《小学生数学能力训练大纲》,广西师范大学出版社,1987年版。

计算机视觉的基本概念篇5

【关键词】地理教学 多媒体课件 制作

【中图分类号】G633.55 【文献标识码】A 【文章编号】2095-3089(2015)18-0272-02

优秀的多媒体课件,应是精确的地理信息合、精巧的计算机程序,优美的艺性相结合的教学工具。多媒体课件的使用过程也是学习过程,是学生以计算机为载体,对地理知识和技能等信息的认知和实践过程,它构建于地理学、教育学、心理学、计算机和艺术欣赏等学科基础上。任一方面欠缺,都会使课件使用效果大打折扣。

本文从实践出发,试论多媒体课件在制作过程中应注意的问题。

一、地理多媒体课件的应强调科学性:

地理多媒体课件的科学性体现在教师对课件的设计中,包括教学内容、方法、媒体的选择等。具体而言,先要确定适合多媒体教学的内容,还要求教法突出多媒体的不可替代性。由此可见,科学性的实现要取决于教师对教学内容的认识水平。

由于多媒体课件的最终目的,是为了让学生通过对课件中地理信息的学习来掌握地理理论、知识和技能,因此地理信息表述的科学性就成了多媒体课件追求的基本目标。地理信息表述的科学性,主要指地理信息表述要准确。

在课件表述的地理信息中,主要有地理要素在时空上的变化、地理要素的数量、地理要素之间的关系等,在设计时各有不同的侧重。

1、空间概念:

空间概念包括区域和方向概念。区域概念常以地图来表现地理事物的空间规律,通过点、线、面的组合实现。点的内容指具体地理事物的位置;线的内容如交通线等;面的内容则表示一定的区域。一般大面积的空间范围宜用浅色,小面积的点线宜用艳色。

方向概念常建立在运动、物体展布和数量对比的基础上,因而设计教学课件时要区别使用不同的表示方向的形式,如运动方向用动画或箭头表示,区域对比用颜色差异表示,区域间量的渐变用近色或同色深浅表示等。

2、时间概念:

时间概念的表示要抓住时间点和时间段。以要完整表现对流雨为例,既要注意说明对流雨形成的几个时间段,又要注意典型现象出现的时间点。

3、数量概念:

教学课件中常用的地理数据多样,通常可分为绝对数据和相对数据。绝对数据用于说明一般数量概念,相对数据则用于说明地理事物间的数量对比,建立在绝对数据之上。在表现手法上,前者突出数据本身的大小,后者更重视数据间的对比,因而常用各种统计图表示。

另外,科学的认知理论是设计课件中信息呈示、流程控制的基础。它可以有效增强学生对信息的记忆。

二、地理多媒体课件的设计应强调技术性:

与所有用于教学的课件一样,地理多媒体课件的设计应注重程序设计的技术性,突出表现在程序的精致好用。课件的技术水平取决于程序设计者、地理教师、设计人员间的配合。

地理课件的技术性主要体现在以下几方面:

1、合理选择多媒体对象类型:

针对不同的课型和课程内容选择合理的媒体类型。如以地球运动为代表的空间概念很强的内容,三维动画能很好地解决问题;以地形雨为代表的地理现象二维动画就能较好完成;适当的视频资料可增强学生对地理知识的理解记忆、提高学习兴趣,过多的背景反而会分散学生注意力,无谓加大了课件制作的工作量。又如区域地理新课教学可用色彩鲜明、注记恰当的地图,在练习时则可用到没有注记的色彩简单的地图等。

2、注意程序的流程控制:

程序流程控制有利于地理教学过程的实施。课件流程切忌设计成预先确定运行时间的、单线前进的方式,而应该切合自然的教学过程。如合理安排动画的暂停、突出时间过程中的关键点,教师可从容讲解实际过程中转瞬即逝甚至根本看不到的现象,对典型的时空关系进行分析,而动画暂停的触发,可以是预先设计的典型时间点,也可以教师在教学过程中临时实现;流程设计要能处理课堂教学中的突发事件,它可能源自教师讲解过程的需要,也可能源自学生学习过程的需要,因此程序要有灵活的跳转,既能方便到达某目的地,又能迅速跳转到起始处,要尽量提高程序的响应速度等。

3、突出计算机的特点:

计算机教学环境比以往任何教学工具都有明显优势,突出表现在它有很强的交互、计算、综合能力。交互不仅用于控制教学过程,更可用于学生的学习和练习过程。在 Windows 环境下,通过键盘及鼠标操作可以设计出多样的练习;通过简单编程,可以利用计算机计算快速的特点,进行地理计算;利用计算机处理声像动画更是地理多媒体课件的本质优点。另外通过程序设计可以将教学过程,尤其是个体化课件的学习过程记录下来,实现学习过程的跟踪。

4、创造友好的使用环境:

要使课件有较好的兼容性,要兼顾课件在不同硬件上的兼容性;要有较强的容错能力;要使课件符合标准的操作习惯,便于推广普及。及时将计算机软硬件领域的先进手段用于地理多媒体课件的制作也应是一个值得注意的问题。

三、地理多媒体课件的界面设计强调艺术性:

由于课件的学习过程首先是一个主观的感受过程,因而多媒体课件就不能离开影响学生主观感受的“艺术”性。追求艺术性目的是达到使课件易接受性,是课件制作的更高境界,对制作者也有更高的要求。必要时可请音美专业人员加盟协助。

从艺术性的角度看,地理多媒体课件可注意以下几点:

1、视觉美感:

视觉效果是影响地理多媒体课件外观质量的重要因素。优美的视觉效果能提高学习者的学习效率。

2、听觉美感:

地理多媒体课件应该考虑加入一定的声音信息。

3、操作美感:

课件的操作方式要顺乎学习习惯和电脑操作习惯,为不同环境、不同使用者提供兼容的操作方式,如在操作不方便则课件的教学效果必会受到很大影响。

从更高的要求来看,课件要讲究整体美。作为一个完整的课件,要讲究整体性,即学习内容的科学完整、使用的简单稳定、艺术风格的和谐统一。

四、地理多媒体课件的科学性、技术性和艺术性是辩证的统一:

1、艺术性应服从于科学性:

追求课件艺术性不可喧宾夺主,而应该注意其科学的表现能力。

2、艺术性可以加强科学性的表现力和说服力:

好的构图,有利于安排好画面上多媒体对象之间的相互关系,比传统教学中一幅漂亮的板书会来得更加精彩;和谐的色彩能给人能给学习者以悦目的享受,使信息接受更加顺畅;恰当的对比能充分突出重点要点。

3、技术性是科学性艺术性的保障

地理多媒体课件本身是一计算机程序,因此技术性是课件质量的一个重要的方面,是课件的科学性和艺术性的保障。一般来说,课件程序的设计水平越高,制作越精巧,其教学效果也会越好。但只有好的程序是不够的,因为技术性要通过科学性和艺术性才能表现出它的作用。

计算机视觉的基本概念篇6

关键词:知觉 意向 视觉媒体 视觉思维 设计

基金项目:云南省教育厅科学研究基金项目(2011C169)

1 知觉、意向、视觉思维

知觉是人通过感觉器官对外界事物的认识,是一种非常复杂的生理和心理现象。从生理上看,视、听、触、闻是人对自然界感知的主要器官。知觉是生理器官的“感知”加上心理的“认知”而对外界事物的认识,这也是人们认为知觉包含着人的思维活动的原因。“视知觉”、“听知觉”是人的最重要的知觉,是人对外界事物认识的主要通道。美国艺术心理学家鲁道夫·阿恩海姆继承和发展了韦特海默关于知觉和创造性思维的研究,从更高的角度探究了视知觉的理。阿恩海姆在《艺术与视知觉》一书中以大量的事实证明“一切知觉中都包含着思维,一切推理中都包含着直觉,一切观测中都包含着创造”。在《视觉思维》这本专著中,他不仅进一步阐述了视知觉的理问题,而且还阐明了“视觉意象”在一般思维活动,尤其是创造性思维活动中的重要作用和意义。

美国心理学家麦金是正式使用视觉思维概念的第一人。他根据自己的研究对这一概念做出了独特的概括和界定。他指出,视觉思维借助3种视觉意象进行:一是人们看到的意象(观看);二是我们用心灵之窗所想象的(想象);三是我们的构绘,即随意画成的东西或绘画作品(构绘)。虽然视觉思维可能主要出现在视的前后,或者仅仅出现在想象中,或者大量出现在使用铅笔和纸的时候,但是有经验的视觉思维者却能灵活地运用这3种意象。他们发现观看、想象和构绘之间存在着相互作用。从这个意义上说,将其表述为意象思维、直觉思维或审美直觉思维,也许会更为恰当。麦金关于视觉思维的定义的最大特点就是富于操作性,可以看做是视觉思维概念的一种操作性定义。

结合普通心理学关于思维的定义,以及阿恩海姆和麦金关于视觉思维的解释,我们可以形成对视觉思维这种心理活动的基本认识。视觉思维就是指人类在视觉感知的基础上,对视觉意象进行分析、概括、加工、整理,以寻求含意、达到一定目的的心理过程。视觉思维是一种积极的理性活动,是对现实的一种创造性把握。它自始至终借助意象,在观察、想象、构绘等形式的不断交替和变化中进行创造性活动。

2 视觉媒体

视觉媒体是指通过图形、符号等视觉方式接受信息的媒体,如报纸、杂志、画册等。视觉媒体是人类最丰富的信息来源。凡是能为人类视觉系统所感知的物体的视觉形象统称为图像。事实上,文字、图形最终都是以图像的形式呈现的,但是由于计算机表示、处理和显示图像的方法不同,我们一般将它们看作是不同的媒体。因此,视觉媒体又可以分为以下几类:

2.1 位图图像

位图图像是对视觉信号直接量化得到的一种视觉媒体。它将原始的视觉信号离散化为空间的点,称为像素。对像素的颜色、亮度(或灰度)加以数据描述,得到图像数据,将这些数据作为文件存储,即为图像文件。在显示时,像素与显示器的显示点一一对应,故称为位图影射图像,简称位图图像。

2.2 矢量图形

图形是对图像的一种抽象,它不直接描述图像的每一个点,而是依据某个标准对图像进行分析,抽取实体特征,形成产生图形的算法,并以一组指令的形式存储。显示时执行指令,即可产生屏幕图形。图形上的点的位置通常用矢量来描述,故称为矢量图形。由于存储的是绘图程序,所占用的存储空间比位图图像小得多,但是显示时要花费较多的计算时间。矢量图形描述物体的轮廓(大小和形状)比较容易,也可以表现曲面、光照、材质的效果,但是对于复杂的彩图,算法描述和计算的困难很大,效果不理想。

2.3 视频、动画

视频、动画是动态图像,是连续渐变的静态图像或图形序列,随着时间的变化而产生的运动视觉的一种视觉媒体。如果序列中的单帧图像是摄取实景得到的真实图像,则称其为影像视频,简称视频。如果序列中的单帧图像是人工或计算机产生的图像,则称其为动画。动态图像具有实时运动感和自然真实感。

2.4 符号

符号是信息的一种抽象的表示形式。符号可以表示数值,也可以表示语言、文字。特定的符号可以表示物体或事件。

2.5 体图

这是运用科学计算可视化技术,将三维空间数据转换为可视图像而产生的一种新的视觉媒体技术与MCAI系统媒体。体绘制技术可以把三维空间样本直接转换为屏幕图像,准确重现原始的数据场。层析成像技术可以根据物体外部所获取的某种物理量的数据,用数学方法和计算机成像技术,重建物体特定层面上的二维图像,并在一系列二维图像的基础上构造出整体三维图像。医学上的CT、核磁共振仪、分子模型构造、流体力学计算等都得到了应用.

3 视觉媒体设计与视觉思维

视觉图像可以准确地传达信息内容。从设计者角度来说,视觉图像有其他信息传递方式没有的天然优势。从受众角度来说,视觉心理左右受众对信息的关注程度,视觉媒体设计阶段则对视觉思维因素更加关注,因为这样的关注往往能够在设计的效果上起到事半功倍的作用。

3.1 视觉媒体设计需要视觉思维经验

视觉不仅是一种直观的感受经验,更是一种思维的方式。视觉媒体设计要依赖于视觉思维的能力与经验。当设计师针对某个特定的对象和题材进行设计前,脑海里会快速产生很多想法,这些想法有的来自灵感,有的来自经验,但更多的是来自经验,特别是视觉思维经验。视觉思维经验有很多,其差异性很大,但也存在着一些共性。例如,视觉思维中“层”的经验。视觉感受到的是画面,画面在思维中是分层的,画面内各种“层”都可以抽取成为设计元素,都能很直观地让人感受到画面的逻辑,直接获得视觉上的冲击。虽然画面元素众多,但如果我们能用“层”的概念去解构这些作品,便会另有一番滋味。其实,层的利用已经不只局限在平面的画面上,当今的3D电影也是视觉中“层”概念的另一个延伸。

在视觉思维中也有一些是个性的经验。例如,形象思维到抽象思维的经验。视觉思维面对的画面客观、真实、具体,反映着具有普遍现实意义和广泛联想的审美价值观。抽象思维往往建立在视觉形象思维的基础之上,既理智又夸张,不受物象光、色变化的限制,把人的思维与反思维、和谐与非和谐应用到了极致,在视觉上产生刺激、振奋、联想之感。视觉媒体设计从形象思维到抽象思维的经验丰富与否,对设计的深度及展示的视觉媒体的内涵及水准起着不可估量的作用。又例如,视觉思维的审美经验。德国哲学家黑格尔认为,在人的众多感觉中只须听觉、视觉就能审美。视觉媒体需要美,审美要有思维,同一对象对于不同的人,即不同的思维(视觉思维)有不同的审美价值及审美观,然而基本的审美观具有较大的相同点。

人的思维是难于控制的,视觉往往是启发、诱导思维的因素,审美会随着视觉及视觉思维的变化而发生变化。共性的视觉思维与个性的视觉思维存在于一切视觉思维之中,共性的视觉思维客观地反映事物的表象,个性的视觉思维能深刻的呈现设计者对视觉媒体的理解与展示。

3.2 视觉媒体设计需要良好的视觉思维

视觉媒体能够传达视觉形象,视觉形象能够在一定层面准确地传达信息内容,视觉媒体设计即上述符号、图像图形的设计。视觉媒体设计是近年來发展很快的一个设计、研究领域。视觉媒体设计独特的视觉空间和心理空间的表现技术,把对过去的经验和体验提升到对虚拟的现实体验,其目的,就是由视觉形象准确地传达信息内容。

视觉媒体设计就是视觉思维后的创造,这种设计能力或者说创造能力除了自我约束、刻苦努力和不懈的追求之外,与视觉思维的经验,视觉思维的能力及个人的瞬间灵感有关,主要与视觉思维经验,视觉思维能力有关。当面对媒体设计对象时,意象思维、直觉思维或审美直觉思维使设计者对设计对象做出自身独特的理解、判断与概括,并在上述基础上进行设计与创造。

当设计教学用视觉媒体时,视觉引起的思维主要是媒体展示的内容是否与教学内容一致,是否能让学习者容易理解,是否能更有效教学,对视觉媒体设计上不会思考更多的图像,文字的色彩,变形等。然而,针对视觉广告、平面广告媒体这样的视觉画面设计的视觉思维就复杂得多,涉及色彩、线条、图案、文字等等对心理的感受及冲击,涉及个人喜好。或者说,视觉媒体的设计对对象的构建,更大程度地取决于设计者对对象多大程度成功地诠释,也就是从思维的经验介入到对事物的新的认识和思维。这种新的认识和思维即是良好的视觉思维能力。

视觉媒体设计所需的良好视觉思维能力涉及许多因素,但最重要的是广博的知识面和良好的形象思维与抽象思维能力。广博的知识面,能让思维在视觉所涉领域很好地理解视觉对象,良好的形象思维与抽象思维的能力在媒体设计时能使画面的意义和寓意有足够的深度并可引起更多想象与思维的空间。当然,广博的知识面与良好的形象思维和抽象思维能力需要经过长期地学习、实践和积累才能逐步形成。

参考文献:

[1]鲁道夫,阿恩海姆著腾守尧译.视觉思维[M].四川人民出版社,1988.

[2]傅世侠.关于视觉思维问题[J].北京大学学报(哲学社会科学版),1999,02.

[3]华佳.视觉传达设计与视觉思维[D].苏州大学,2004.

[4]梁玥亮.简论视觉思维[D].上海戏剧学院,2005.

[5]顾莉莉;王俊民.视觉思维在多媒体课件设计中的应用[J].现代制造工程,2006,03.

计算机视觉的基本概念篇7

关键词 学科交叉教学 应用数学 机器视觉

中图分类号:G643.0 文献标识码:A DOI:10.16400/ki.kjdkz.2015.12.016

Abstract Interdisciplinary teaching is teaching model advocated by most schools, graduate students for cultivating compound talents can promote. In this paper, "Applied Mathematics" teaching in machine vision applications courses for example, by building cross-disciplinary courseware and experimental platform to build, will dull mathematical theory and practical application together. In theory study, to enhance engineering practice ability, innovation ability of students.

Key words interdisciplinary teaching; applied mathematics; machine vision

0 前言

21世纪是世界经济、文化、科技迅猛发展的时期,由此派生了一系列复杂的问题,所以需要的人才也是复合型的人才。交叉学科教学是教育部提出的深化研究生教育改革的意见,鼓励多学科交叉培养可以拓宽学术视野,激发创新思维。

国内的国防科技大学,以“微机电系统分析与设计”课程为例,分析了交叉学科研究生课程的特点,并从基础知识教学、专题研讨和实践能力等进行了教学方法的探索与实践。①南京航空航天大学开展了交叉学科课程教学方法的研究,积极引导研究生探索和主动学习,促进其思维发散。②美国政府颁布了新修订的学科目录,交叉学科的数量从1985年的9个增至2000年的21个,反映出美国增设交叉学科专业,加大学科交叉人才培养力度的趋势。③

机器视觉是一门多学科交叉的课程,涉及到应用数学、光学、图像处理等相关内容。这门课程中的数学应用颇多,并且涉及到的算法抽象,概念较多,学习后并不具备实际的应用能力。由于大多数应用数学的算法可以以图像处理的形式表现出来,为此,研究了一种基于机器视觉设备的计算机应用数学基础试验教学方法,将枯燥的数学理论与实践应用结合起来,使得学生可以在理论学习过程中,了解每个数学理论的实际应用效果,应用到研究生的创新实验中,提升学生的学习兴趣和主动性。

1 教学课件的主要构成

该系统教学课件是根据作者前期国家自然科学基金研究成果和多年教学经验总结的软硬件结合的系统,④软件主要包括:数学基础课件模块,曲线绘图构件,程序开发环境。硬件主要包括:计算机、图像采集与光源,运动控制机构。

1.1 硬件系统组成

1.1.1 工业摄像机和投射光源

为了进行更好的图像采集,系统采用了畸变率较小的工业摄像机和工业镜头。工业摄像机采用千兆以太网技术,通过TCP/IP 技术完成图像的传输和采集。 摄像机的驱动开发成可以直接使用的课件模块,可以直接进行数字图像采集。以双目摄像机为中心建立了一个世界坐标系,坐标系的参数已经经过系统自动标定。

数字图像采用1280?024 pixel的分辨率,在这种分辨率下,图像可以将比较复杂的函数离散化表示出来。

投影光源采用DLP技术的LED投影光源,该光源可以通过程序设计投射出彩色图像和黑白图像,投射图像可以投射出预订的光强变化函数,如图1所示。

1.1.2 运动控制系统

运动控制结构包括平移台和转台,主要用于提供坐标的旋转、平移和坐标变换。系统通过步进电机和脉冲发生控制来完成,上位机通过RS-232与控制器进行连接。

1.2软件结构

系统的软件由以下几个部分构成:

操作系统:Windows操作系统

程序开发环境:VISUAL STUDIO 2008

三维显示与接口:基于OPENGL开发的三维显示接口控件。

教学基本课件:自行开发的基本插值方法、向量空间演示、矩阵运算等基本课件。

应用开放接口:图像处理中的最常用二值化、阈值分割、边缘提取、特征匹配等,还包括摄像机的自标定、采集、光源投射等。

根据以上软件的开放接口,利用已经设计好的程序和算法,可完成对图像的初步处理作业。

2教学课件的搭建

根据搭建的教学平台可以组成多种教学课件,根据我们常用的实验方式,完成几种常用的应用数学课程的教学:

2.1应用机器视觉进行矩阵运算教学

矩阵运算在机器视觉中应用最为广泛,较为典型的就是摄像机的标定的旋转平移矩阵,物空间到像空间的变换矩阵和坐标变换矩阵。

在矩阵运算中,基本的物空间到像空间旋转平移矩阵如公式(1)所示:

= + (1)

旋转矩阵R为一个3?的矩阵,平移矩阵T为3?的向量,通过对简单的旋转平移矩阵的计算,验证坐标转换关系。利用摄像机的三自由度调节云台,在三个方向上给出已知的旋转角度,求出实际的旋转平移矩阵。经过这个教学,同学们理解了矩阵运算的应用领域,也对矩阵运算有了深刻的印象。

2.2赋范线性空间的教学

应用数学基础教学中最为枯燥的就是赋范线性空间,而图像处理和三维点阵的处理可以为赋范线性空间提供一个非常好的实例。

如图2所示,由教师在机器视觉系统中给出一个含有带有空间坐标信息的三维点阵,这个三维点阵是实测的一位教师的手指尖的三维点云图。该点阵的每一个点都带有的三维坐标以及灰度信息。另外,三维点阵还存在一些测量的噪声,一些较小的孤立点集。

这个教学课件主要通过学习如何去除点云的噪声来学习赋范线性空间。教师首先通过设计好的软件来显示距离、范数、度量、开集、收敛等一系列概念,由同学们根据点云之间的性质,判断出开集、闭集,从而通过编写程序判断出噪声点和孤立点群并加以去除,理解有界赋范线性空间等概念。

3 结论

通过机器视觉这门课程的教学,很好的将应用数学基础中枯燥的概念转换为生动的实例,并具有较强的程序实现性。较之传统的学习方法,提高了学生的兴趣。此教学方法理论与实践相结合,是响应国家“卓越计划”的教学改革新方法。不但可应用于本科生、研究生的教学过程中,也可应用到教师的科学实验中。

基金项目:国家自然科学基金《单目高精度大型物体彩色三维数字化测量原理研究》(编号:60808020)和《基于视觉的织物疵点三维检测和三维识别原理研究》(编号:61078041)

注释

① 肖定邦,辛华,吴学忠等.交叉学科研究生课程教学的探索与实践[J].高等教育研究学报,2012.3:115-117.

② 李修建,孔迪,刘菊,等.注重学科交叉融合 实现个性化教学[J].学位与研究生教育,2014.5:24-27.

③ 高磊,赵文华.美国学科交叉研究生培养的现状及启示[J].学位与研究生教育,2014.8:54-60.

计算机视觉的基本概念篇8

原画概念设计的魅力是它能将抽象的文字语言转化为视觉语言,徽派建筑风格独特,融合了东方建筑的自然美与艺术美,是质朴与典雅并存的瑰宝艺术之一。原画概念设计更是涵盖了中国古代建筑风格中的主要设计元素,不断尝试新的视角,将其多元素的风格,简单的透视,空间的分割节奏,光影变化及丰富的色彩最终呈现在动画原画概念设计中,将两者相结合既灵活提取和运用了这些符号,也可以更好地传播徽派建筑文化。

【关键词】

徽派建筑;原画概念设计;设计元素;透视

1徽派建筑风格的原画概念设计背景

原画概念设计在国外很多行业中有广泛的应用,主要用于影视概念设计。与此同时,在游戏、动画、漫画行业也都有广泛的应用。在中国,原画概念设计更是随着网络游戏的兴起,因作为游戏行业中游戏制作中不可分割的一部分逐渐被人们熟知。在以徽派建筑为主的这一系列的插画创作中,主要是以中国古代建筑风格设计元素为基础,从而设计出一系列新的展现原画概念设计的视角。徽州历史博大精深,源远流长,徽派建筑多依靠山水,坐落于景色秀丽的大自然中,徽州建筑闻名古今,粉墙黛瓦,错落有致,以及在建筑中精细的传统图案雕刻,则更是点睛之笔,意义深远。原画概念场景在应用领域占得比重很大,设计的范围也很广阔。包括历史、宗教、地理、建筑、机械等学科,都能带给它设计方面的启发。

2徽派建筑风格原画概念设计创作过程

从徽州建筑静中有动的节奏美,平衡稳固的对称美,意义深厚的象征美,黑白相间的色彩美进行高度的概括和提炼。徽派建筑原画概念设计,本组作品以中国古代建筑为主要设计元素,在其基础上得以延伸设计。令原画以另一种模式的形态呈现,本组作品由原画概念场景、原画角色、原画道具这三个方面组成。在这里不能一一叙述,现在以徽派建筑作为天马行空的想象为前提,比如我们可以将它设定为徽州神庙为主来说原画概念设计这一作品的分析。

第一步,明确主题。确定以须弥山上的徽派建筑龙王庙故事为主题进行创作。设定徽派建筑龙王庙。

第二步,组织构图。路线设计构图采用“九宫格”的画面分割法,也就是将画面横竖都三等分,从而形成九个方格,四个交点。这四个点较容易吸引观众的视觉注意力,较活跃,生动,也是生理上最佳视觉范围。又叫“黄金涡”这种构图,不但可以做到画面平衡,突出主体物,而且有一种打破画面局限的效果,从而形成开放性的构图结构。

第三步,光线、时间、色彩的安排。首先,它的光源就以太阳光为主,早上的色彩纯度偏低,对比度也相对较弱,主导色彩为青色。有光影存在时,视觉上固有色的纯度和明度也会发生改变。HSB对应色相、纯度、明度。画面的明度随着时间的变化而变化,冷暖变化全靠对比。第四步,画面的透视处理。透视是将三维的立体空间以二维平面空间的方式呈现。以视觉透视、形体透视、空气透视三个方面组成。画面采用的是3点透视,主要是指视觉透视和形体透视,一个灭点在画面的左边,另一个灭点在画面的正上方。另一个空气透视,指的是黑白灰处理。黑白灰,顾名思义就是拉开画面节奏,每个物体都有属于自己的明度,黑白灰各有差异。黑白灰的主观处理就是近实远虚。通过对比,我们可以直观的看到离画面越近,它的明度值(B指明度)也越小,画面越暗。反之,离画面越远,它的明度值也越大,画面越亮。

通过两个明度值的直观展现,使画面形成近实远虚。也就是黑白灰处理。第五步,等比(笔)法在画面中的应用。这里的“比”指的是比例,指人与物体的比例。“笔”指笔刷,笔刷要根据物体大小及质感等,选择正确的笔刷刻画细节,调节大小。人体工程学以人为主体,运用人体计算测量,研究人体结构、功能、习惯、力学等方面(为人服务)与环境之间的合理协调关系,取得最佳的使用效能与合理性。以人为主,对比周边事物大小。以及细节的对比,细节越大画面越空洞。第六步,完善细节。把握空间感与黑白灰,进行进一步的深入刻画,至画面最终呈现。

3结语

徽派建筑风格原画概念设计是一组以中国古建为主要设计元素表现探索又带有神秘色彩的一组插画。在PHTOSHOPCS5中我主要应用画笔中的圆头笔刷,圆头笔刷可以更高效的锻炼到我们对画面的感受,在整个创作过程中是一次计算机、软件以及绘画功底的展现,用PHTOSHOPCS5和SketchupMake这两款软件相结合,运用数位板创作出的原画概念设计作品以供赏析。

参考文献

[1]王雪平.浅析CG插画及其学习方法[J].科学导报,2013(08).

[2]韩笑.影视动画场景设计[M].北京:海洋出版社,2015.

[3]李可为.游戏原画技法[M].华中:科技大学出版社,2014.

[4]吴霞.P型画面分割在平面设计构图中的应用[J].重庆科技学院学报,2011(17).

上一篇:节水的灌溉技术范文 下一篇:智慧校园数字化管理范文