数据分析设计范文

时间:2023-11-25 09:51:49

数据分析设计

数据分析设计篇1

关键词 分析化验;业务域;POSC Epicentre逻辑模型;业务活动

中图分类号:TP311 文献标识码:A 文章编号:1671-7597(2014)04-0017-02

1 业务对象分析

库房中储存的样品主要是岩石样和流体样,根据取样方式的不同可以把岩石样分为岩心样、壁心样、岩屑样和露头样,把流体样分为常温常压流体样和高温高压(统称PVT)样,根据流体相态又可以把流体样分为油样、气样和水样。

分析化验所使用的样品是小样,也叫做实验用样,是大块岩石样或大桶流体样中的一部分。根据实验的目的和要求,可以把小样分为水平样和垂直样。

2 分析化验项目分析

根据样品的类型可以把分析化验分为流体样实验、岩石样实验和岩石样-流体相共存实验3种。

2.1 流体样实验

流体样实验是对从井筒或地面上取得的流体样进行分析的,研究井筒中流体的特性,为油气田开发前期设计提供参考依据,为生产井提能分配或井下作业提供基本数据支持。

根据流体取样方式的不同,把流体样实验分为常温常压流体实验和PVT实验,由于流体相可以分为油相、气相和水相,所以流体实验又细分为常温常压油样实验、常温常压气样实验、常温常压水样实验、原油PVT实验、易挥发油PVT实验和凝析气PVT实验。

2.2 岩石样实验

岩石样实验是对钻井过程中取到的岩石所进行的分析或鉴定,是地层岩石特性最直接、最准确的表现。

根据实验的目的不同,把岩石实验分为常规岩心分析、特殊岩心分析、岩石地化分析等。

2.3 岩石样-流体相共存实验

岩石样-流体相共存实验是分析岩石在以不同的流体相作用下,所呈现出来的岩石的润湿性和联通性等,主要有毛管压力实验和相对渗透率实验等。

根据流体相作用方式的不同可以分为压汞法和驱替法,驱替实验分为油驱替水、水驱替油和气驱替水等。

3 业务分析

业务分析是数据库设计的基石,只有业务分析好,才能设计出满足需要的业务模型。根据工作内容可以把业务分析分为业务调研、业务划分、业务活动分析和数据分析。

3.1 业务调研

确定分析化验业务域的业务调研范围和调研内容,形成业务调研清单,并制定业务调研模板。业务调研模板是业务调研的依据,必须要包含业务名称、业务流程和数据应用情况等。在执行调研时,按照业务调研模板内容,详细了解分析化验业务现状、数据库现状、应用现状和数据管理机制等,并收集相关资料(报表、数据、业务规范等)。

3.2 业务划分

根据业务调研情况对分析化验业务域进行业务划分,划分为一级业务和业务活动,一级业务主要有常规岩心分析、特殊岩心分析、岩石地化分析、油气地化分析、岩矿分析、同位素分析、岩石力学分析、古生物分析、油气水分析和流体PVT分析等。

业务活动是对一级业务进行细分,直至划分到不能再分为止。如一级业务常规岩心分析包含有岩石物性分析、岩心伽玛测定和岩心CT扫描等。

3.3 业务活动分析

根据业务划分得到一个个业务活动,每一个业务活动都有自己的业务含义和业务范围。业务活动分析就是要详细分析每一个业务活动流程,如业务活动的时间、地点、参与人员、业务规则、输入数据、输出数据、相关的标准规范等。如岩石物性分析是实验员(who)收到分析化验任务后(when),在实验室(where)根据样品基本信息和检测任务单的要求对岩心样品(which)进行岩石孔隙度、渗透率、含油饱和度、密度、碳酸盐岩含量的分析化验,形成岩石物性分析成果数据表和业务分析报告(what),为表征岩石孔隙的发育程度、储集流体的通过能力和岩石渗流特征提供重要参数,为储量计算、采收率确定等提供参数依据(why)。

3.4 数据分析

数据分析是对业务活动数据集和现有专业数据库物理表进行详细分析,业务活动数据集分析是对业务活动的输入数据和输出数据进行分析,规范业务活动输入数据集和输出数据集,形成业务活动数据集;现有专业数据库物理表分析是对现有在用专业数据库物理数据表进行分析,分析出专业数据库物理数据表的实际业务含义,具体是哪个业务活动产生的,对应于业务活动的哪个数据集,形成专业数据库物理数据表对业务活动数据集的映射关系。

数据分析表如下:

业务活动 输入数据 输出数据 业务活动数据集 专业数据库

岩石物性分析 检测任务单 岩石物性

分析报告 岩石物性分析报告 文档数据库

实验样品信息 岩石物性分析

成果数据 分析化验数据库

4 数据模型设计

数据模型设计是实现业务分析到物理模型设计的所有过程,主要分为业务模型设计、采集模型设计、逻辑模型设计和物理模型设计。

4.1 业务模型设计

根据业务调研和分析成果,对业务模型进行标准化梳理,对数据流进行详细分析,完成从业务分析到业务模型的转换,形成业务模型。

4.2 采集模型设计

制定业务模型中数据集合并原则,根据这些原则分析业务模型中需要合并的数据集,通过专业工具完成业务模型数据集的合并工作,实现从业务模型到采集模型的转换。业务模型数据集合并原则:首先是业务活动场景相同;其次是业务活动产生的数据项相似。

4.3 逻辑模型设计

通过对POSC Epicentre逻辑模型和PPDM模型的研究,结合石油企业业务实际,采用面向对象的设计方法设计分析化验逻辑模型。逻辑模型主要分为对象模型、活动模型和属性模型。对象模型是对分析化验业务域中所涉及到的业务进行抽象,提取出一个个业务对象,用前缀OOE_表示,如岩心的对象模型是OOE_Core等;活动模型是对分析化验业务域中所有业务场景进行抽象,形成业务活动编目,存储在OOE_Activity实体里,具体的业务分析活动只是业务活动编目的具体实例。如岩石物性分析是业务活动,***井岩心常规分析报告是业务活动实例;属性模型是业务活动数据集中的相同数据项的抽象,提取出一个个属性对象,使用前缀OOP_表示,如孔隙度的属性模型是OOP_Porosity。

4.4 物理模型设计

设计从逻辑模型到物理模型的投影规则,依据投影规则实现逻辑模型到物理模型的转换,投影出不同版本的数据库,以支持不同的数据存储和管理需求。常用的投影规则有直接投影、复制投影和合并投影,不同的实体具有不同的投影规则。在投影时,为了保证物理模型的最优化设计和数据存储的最少冗余,要求分析所有实体对应的最优投影规则,根据最优投影规则一次投影出物理模型。

5 总结

分析化验对象数据库的设计是依据国际先进的POSC Epicentre模型,根据对象设计方法设计的,具有对象的特征,能很好的满足业务人员的使用习惯,为今后的勘探开发设计提供强有力的支持。

参考文献

数据分析设计篇2

【关键词】 文史数据库 设计 要点分析

1 前言

随着文史资料研究的逐步深入,构建文史数据库成为了提高文史资料研究质量的重要手段。通过对数据库的设计过程进行了解后发现,数据库的设计与实现步骤主要为需求分析阶段、概念结构设计阶段、逻辑结构设计阶段和物理实施阶段。要想保证文史数据库设计取得积极效果,就要明确设计思路,同时在数据模型的建立上下功夫。在确定设计思路过程中,应合理确定数据模型、概念模型和现实需求。在数据模型建立过程中,应严格规范化要求,提高数据模型建立质量。

2 文史数据库的设计与实现的步骤分析

通过了解发现,文史数据库的设计与实现主要分为以下几大步骤:

2.1 需求分析阶段

在文史数据库设计之前,需要明确文史数据库需要具备哪些功能,需要研究文史数据库的特点及文史数据库与其他数据库的区别,保证文史数据库的设计能够满足实际需要,提高文史数据库的设计效果。

2.2 概念结构设计阶段

在明确了文史数据库的需求以后,需要进行数据库结构的简单构建,其中重要的一环是划分数据库的基本结构,并建立数据库的基本的概念,保证结构层次能够满足实际需要。

2.3 逻辑结构设计阶段

逻辑结构设计是文史数据库设计的重要阶段,是保证文史数据库功能实现的关键阶段,在这一过程中,需要构建适合数据库需要的数学模型,并提高数据模型的运算效果,保证数据库的功能得以实现。

2.4 物理实施阶段

所谓物理实施阶段主要是利用数据库设计原理,将物理元件连接和组装在一起,实现数据库的功能,在文史数据库设计与实现过程中,物理实施需要连接硬件系统,并将数学模型落实到系统中。

3 文史数据库的设计与实现的思路分析

数据库系统:需要机器中的某种数据库管理系统支持,物理存储逻辑结构;数据模型:逻辑结构设计关系模型;概念模型:(e-r模型)现实需求。

e-r模型中的术语:实体、属性、实体型、实体集、键、联系。实体名(属性1,属性2,……,属性n) 图形描述规则:(1)“矩形”框用于表示实体集;(2)“椭圆形”框用于表示实体集中实体的公共属性;(3)“菱形”框用于表示实体集之间的联系。实体之间的联系有三种类型:(1:1)、(1:n)、(n:m)。

数据模型:关系、属性、关键字(候选关键字,主关键字,外部键)、关系模式 关系名(属性1,属性2,属性3,……属性n)。关系完整性约束:用户自定义完整性、实体完整性、参照完整性。

e-r模型和数据模型的对应关系:实体名(属性1,属性2,……,属性n)关系模型:关系名(属性1,属性2,……,属性n)。

4 文史数据库的设计与实现的数据模型建立分析

数据模型构成: 数据结构:数据库的框架。二维表格(关系模型) 数据完整性:用约束保证数据正确。 数据操作:插入,删除、修改。

关系数据模型的规范化要求:(1)一个关系是一个二维表格。每个关系只包含一个实体的信息。(2)关系中每一分量不可再分,是最基本的数据单位。(3)每一列是一个属性,有唯一的属性名。属性在表中的顺序无关紧要。每一列的数据分量是同属性的。(4)二维表格中每一行(除属性名行)是一个元组,表中不能有重复的元组(元组是唯一的),用关键字(主关键字和候选关键字)来保证元组的唯一性。每一行由一个实体的诸多属性构成,且各行的顺序可以是任意的。

基于文史数据库的特点,在文史数据库设计过程中,应对数据模型建立引起足够的重视,应从数据模型建立入手,全面提高文史数据库的构建效果。

5 结语

通过本文的分析可知,在文史数据库的设计与实现过程中,要想保证数据库的设计与实现取得积极效果,就要对数据库的设计

骤、数据库的思路确定和数据库模型建立等方面有足够的了解。同时,还要认真分析文史数据库的特点,明确文史数据库与其他数据库的区别,保证文史数据库在构建过程中能够满足实效性要求,达到提高文史数据库构建质量的目的。由此可见,在文史数据库设计与实现过程中,我们要明确设计步骤,把握设计原则,提高设计质量,满足实际要求,使文史数据库的设计能够取得积极效果。

参考文献:

[1]季伟,刘永辉,刘剑,崔卫.实现三网融合的ftth工程设计[j].光通信技术,2010年05期.

[2]刘亚荣,杨春,李新,蒋存波.基于gpon的高校ftth设计方案[j].光通信技术,2011年02期.

[3]张杰,郑振鹏,乐孜纯,付明磊.一种融合型光网络单元的设计与实现[j].光通信技术,2012年01期.

[4]刘豫,李兆会.基于ftth的三网融合解决方案[j].硅谷,2012年13期.

[5]袁恩野.pon技术在宽带网络中的应用[j].硅谷,2013年11期.

数据分析设计篇3

论文摘要:利用数据采集卡构建的数据采集系统一般价格昂贵且难以与实际需求完全匹配。声卡作为数据采集卡具有价格低廉、开发容易和系统灵活等优点。本文详细介绍了系统的开发背景,软件结构和特点,系统地分析了数据采集硬件和软件设计技术,在此基础上以声卡为数据采集卡,以matlab为开发平台设计了数据采集与分析系统。

本文介绍了matlab及其数据采集工具箱, 利用声卡的a/ d、d/ a 技术和matlab 的方便编程及可视化功能,提出了一种基于声卡的数据采集与分析方案,该方案具有实现简单、性价比和灵活度高的优点。用matlab 语言编制了相应软件,实现了该系统。该软件有着简洁的人机交互工作界面,操作方便,并且可以根据用户的需求进行功能扩充。最后给出了应用该系统采集数据的应用实例。

1绪论

1.1 课题背景

数据也称观测值,是实验、测量、观察、调查等的结果,常以数量的形式给出。数据采集,又称数据获取,就是将系统需要管理的所有对象的原始数据收集、归类、整理、录入到系统当中去。数据采集是计算机管理系统使用前的一个数据初始化过程。数据采集技术广泛引用在各个领域。比如摄像头,麦克风,都是数据采集工具。

数据采集(data acquisition)是将被测对象(外部世界、现场)的各种参量(可以是物理量,也可以是化学量、生物量等)通过各种传感元件作适当转换后,再经信号调理、采样、量化、编码、传输等步骤,最后送到控制器进行数据处理或存储记录的过程。

被采集数据是已被转换为电讯号的各种物理量,如温度、水位、风速、压力等,可以是模拟量,也可以是数字量。采集一般是采样方式,即隔一定时间(称采样周期)对同一点数据重复采集。采集的数据大多是瞬时值,也可是某段时间内的一个特征值。准确的数据测量是数据采集的基础。数据测量方法有接触式和非接触式,检测元件多种多样。不论哪种方法和元件,都以不影响被测对象状态和测量环境为前提,以保证数据的正确性。数据采集含义很广,包括对连续物理量的采集。在计算机辅助制图、测图、设计中,对图形或图像数字化过程也可称为数据采集,此时被采集的是几何量数据。

在智能仪器、信号处理以及工业自动控制等领域,都存在着数据的测量与控制问题,常常需要对外部的温度、压力、流量、位移等模拟量进行采集。数据采集技术是一种流行且实用的电子技术。它广泛应用于信号检测、信号处理、仪器仪表等领域。近年来,随着数字化技术的不断发展,数据采集技术也呈现出速度更高、通道更多、数据量更大的发展态势。

数据采集系统是一种应用极为广泛的模拟量测量设备,其基本任务是把信号送入计算机或相应的信号处理系统,根据不同的需要进行相应的计算和处理。它将模拟量采集、转换成数字量后,再经过计算机处理得出所需的数据。同时,还可以用计算机将得到的数据进行储存、显示和打印,以实现对某些物理量的监视,其中一部分数据还将被用作生产过程中的反馈控制量。

数据采集系统是计算机测控系统中非常重要的环节,目前,有各种数据采集卡或采集系统可供选择,以满足生产和科研试验等各方面的不同需要,但由于数据源以及用户需求的多样性,有时并不能满足要求。特别是在某些应用中,需要同时高速采集多个通道的数据,而且为了分析比较各通道信号间的相互关系,常常要求所有通道的采集必须同步。现有的数据采集系统能够满足上述要求的比较少,且价格十分昂贵,体积较大,分量较重,使用十分不方便。

一般模拟量是通过各种数据采集卡进行数据采集。目前常用的是具有 isa 总线、pci 总线等接口形式的 a/d 采集卡,虽然数据传输率很高,但是还存在整个系统笨重,缺乏灵活性,不能实现即插即用,不适合小型、便携设备采用等缺点。另外这些类型的采集卡在计算机上安装比较麻烦,而且由于受计算机插槽数量、地址、中断资源的限制不可能挂接很多设备。因此,工程师们往往需要花费大量的时间和资源用于系统搭建。

随着现代工业技术的迅猛发展,生产规模的不断壮大,生产过程和制作工艺的日趋复杂,对自动测试和各种信息集成的要求也就越来越高。数据采集系统的好坏将直接影响自动测试系统的可靠性和稳定性,为了满足不同的测试需求,以及减少对资源的浪费,在系统的设计上应该尽量满足通用性和可扩展性。在高度发展的当今社会中,科学技术的突飞猛进和生产过程的高度自动化已成为人所共知的必然趋势,而它们的共同要求是必须建立在有着不断发展与提高的信息工业基础上。人们只有从外界获取大量准确、可靠的信息经过一系列的科学分析、处理、加工与判断,进而认识和掌握自然界与科学技术中的各种现象与其相关的变化规律,并通过相应的系统和方法实现科学实验研究与生产过程的高度自动化。换言之,生产过程的自动化面临的第一个问题就是必须根据从各种传感器得到的数据来检测、监视现场,以保证现场设备的正常工作。所以对现场进行数据采集是重要的前期基础工作,然后再对现场数据进行传输和相应的处理工作,以满足不同的需要。

数据采集卡是中低端数据采集系统设计的必选产品。基于 isa、pci 的插卡式数据采集设备存在以下缺陷:安装麻烦;价格昂贵;受计算机插槽数量、地址、中断资源限制,可扩展性差;在一些电磁干扰性强的测试现场,无法专门对其做电磁屏蔽,导致采集的数据失真。而现代工业生产和科学研究的发展要求数据采集卡具有更好的数据采集、处理能力,传统的 cpu 已经不能满足这一要求。针对以上要求,本文将论述一种基于pc机的声卡技术,它安装容易,成本较低。只需利用计算机本身的软硬件资源,而不需添加其他任何设备即可构成数据采集与分析系统,使用matiab语言编制简洁的图形用户界面,该界面操作方便,并且可以根据用户的需求进行功能扩充。

数据分析在整个科研工作中是个重要的必不可少的环节,它的目的是把隐没在一大批看来杂乱无章的数据中的信息集中、萃取和提炼出来,以找出所研究对象的内在规律。在实用中,数据分析可帮助人们作出判断,以便采取适当行动。数据分析是组织有目的地收集数据、分析数据,使之成为信息的过程。这一过程是质量管理体系的支持过程。在产品的整个寿命周期,包括从市场调研到售后服务和最终处置的各个过程都需要适当运用数据分析过程,以提升有效性。例如,一个企业的领导人要通过市场调查,分析所得数据以判定市场动向,从而制定合适的生产及销售计划。因此数据分析有极其广泛的应用范围。数据分析系统工作的质量和速度如何,对整个科研工作的影响也是很大的。因此研究一种质量性能高的通用数据采集平台具有很大的意义。

在近几十年来 ic 技术和计算机技术的高速发展,为数据采集与分析提供了非常良好与可靠的科学技术基础,也提出了更高的要求和强有力的推动。如今面临着先进的计算机技术和信息技术与落后的信息采集与分析技术的现实差距,那将大大影响科学技术的高度发展和生产过程的高度自动化。所以,近几十年来世界各国都大量投入进行信息采集与分析的工作,尤其是在经济发达的美、英、德、法日等国与我国,都对这一技术高度重视。

1.2 国内外研究动态

数据采集是获取信息的基本手段,数据采集技术作为信息科学的一个重要分支,与传感器、信号测量与处理、微型计算机等技术为基础而形成的一门综合应用技术,它研究信息数据的采集、存储、处理及控制等作业,具有很强的实用性。随着科学技术的发展,数据采集系统得到了越来越广泛得应用,同时人们对数据采集系统的各项技术指标,如:采样率、线性度、精度、输入范围、控制方法以及抗干扰能力等提出了越来越高的要求,特别是精度和采样率更是使用者和设计者所共同关注的重要问题,于是,高速及超高速数据采集系统应运而生并且得到了快速发展。今天,数据采集技术己经在雷达、通信、水声、振动工程、无损监测、智能仪器、工业自动控制以及生物医学工程等众多领域得到广泛的应用并且收到了良好的效果。高速数据采集系统在国防、航天、边缘科学研究中及国民经济的各个领域的成功的应用,进一步引起了各方的关注,推动了它的研制和发展。随着科学技术的发展,数据采集系统得到了越来越广泛的应用。目前,国外很多公司与厂商都投入巨资进行数据采集系统的研制开发与生产销售,其中比较著名的有 neff, ni、hp,tek 等。

从数据采集系统产品来看,各大公司提供的系列产品都包括了完成数据采集的诸如信号放大、滤波、多路开关、模数转换和接口等各种模块。现有的高速数据采集器件和开发的产品中,目前还没有完全实现高速、高分辨率。在雷达、通信、谱分析、瞬态分析、电视等应用领域,为满足实时检测和高速采集的日益更新的需要,实现数据采集的高速、高分辨率已成为数据采集系统的一个发展方向。现有的高速 adc 器件和产品价格都比较昂贵,有些高速、高分辨率的器件本身还存在着不稳定性,因此,在数据采集系统向高速、高分辨率发展的同时,开发和研制的器件和产品应不断地提高可靠性,降低成本,提高性价比,以便使之得到更广泛的应用。在国内,由于历史、技术等原因,我们的产品普遍存在:通用性差、用途单一、测点少、测量距离小、环境适应性差等缺点,远没有形成系列化、模块化、标准化的通用产品,根本无法满足国内用户不断增长的需要,也远远不能与国外产品抗衡,正因此使得价格高昂的国外产品占有了相当大的市场份额。

1.3 数据采集系统的现状及发展

数据采集与分析一直是生产实践研究与应用领域的一个热点和难点。随着微电子制造工艺水平的飞速提高及数据分析理论的进一步完善与成熟,目前国内外对数据采集系统的高性能方面的研究上取得了很大的成就。就 a/d 转换的精度、速度和通道数来说,采样通道从单通道发展到双通道、多通道,采样频率、分辨率、精度逐步提高,为分析功能的加强提供了前提条件。而在数据分析的微处理器上,最初的数据采集系统以 8 位单片机为核心,随着微电子技术的不断发展,新兴单片机的不断问世,十六位、三十二位单片机也为数据采集系统研制厂家所采用,近年来采用具有 dsp 功能的数据采集系统也己投入市场。同时,通用 pc 机的 cpu 用于数据处理也较为常见。总之,伴随着高性能微处理器的采用和用户技术要求的不断提高,数据采集系统的功能也越来越完善。数据采集系统的发展主要体现在以下几个趋势:

首先,在专业测控方面,基于 pc 计算机的数据采集系统越来越成熟和智能化。在过去的二十年中,开放式架构 pc 机的处理能力平均每十八个月就增强一倍。为了充分利用处理器速度的发展,现代开放式测量平台结合了高速总线接口,如 pci和 pxi/compact pci,以便获得性能的进一步提升。计算机的性能提升和由此引起的基于计算机的测量技术的创新,正在持续不断地模糊着传统仪器和基于计算机的测量仪器之间的界线。

其次,在通用测控方面,采用嵌入式微处理器的方案也由早期的采用 a/d 器件和标准单片机组成应用系统发展到在单芯片上实现完整的数据采集与分析,即目前极为热门的 soc (system on chip)。通常在一块芯片上会集成一个,可以采样多路模拟信号的 a/d 转换子系统和一个硬 cpu 核(比如增强型 80_52 内核),而且其cpu 的运算处理速度和性能也较早期的标准 cpu 内核提高了数倍,而且有着极低的功耗。这种单芯片解决方案降低了系统的成本和设计的复杂性。

此外,为了解决 soc 方案中数据处理性能的不足,采用 dsp 作为数据采集系统的 cpu 的研究与应用目前也逐渐引起业内重视。但是这类产品目前仅仅处于发展的初级阶段,在精度、速度或其它性能指标上并不能很好的满足要求。因此,国内外以 dsp 作为数据采集系统的采样控制和分析运算的研究与应用正在展开。

近年来随着芯片技术、计算机技术和网络技术的发展,数据采集技术取得了许多新的技术成果,市场上推出了繁多的新产品。高速数据采集技术的发展一方面是提高采集速率,另一方面不断向两端延伸。一端是输入的信号调理,另一端是采集后的数字化信号的实时处理与事后处理。20世纪90年代末,随着数字技术快速发展,数据采集技术已向着并行、高速、大量存储、实时分析处理、集成化等方向发展。

(1)采样方式

①过采样(over sampling)。采样方式中最早是过采样,根据采样定理,采样频率fs必须高于被采信号最高频率fch的两倍,才不致产生频率混叠现象。例如信号最高频率为10khz,采样频率必须高于20khz。

②欠采样(under sampling)。在通信和动态数据的采集中,发展了一种欠采样技术,即采样频率fs可以低于信号频率fch,但信号的频带宽度不得大于0.5fs,利用采样信号产生的高次谐波,将采样后的信号移至第二或者更高的奈奎斯特区。例如采样频率fs为10khz,可对频带fch落于11~14khz的信号(频带宽度为3khz,低于0.5fs=5khz)进行欠采样。于是在采样频率2次谐波两边产生的采样后的信号频带为f2ch = 2fs±fch = 20 khz±(11~14 khz)= 31~34 khz,或9~6 khz

③等效时间采样(equivalent time sampling )。主要是对于重复的周期波形进行等效时间采样。例如美国泰克公司的tds784d数字存储示波器,其实际的采样频率为 1 gs/s ( 1ghz ),对于重复的周期信号,采取周期微差法,可以达到250gs/s(250ghz)的等效时间采样。例如对于 1 ghz 的方波,进行周期微差法采样,每个周期的采样只有微小的时差,将若干个周期中的样点集中排列,即可测出方波上升沿和下降沿的波形。对于单次瞬态信号,这种方法是无效的。

④变速率变分辨率采样。

(2)采集方式的发展

①扫描式采集(scanning acquisition):时分制、多通道巡回采集。

②并行式采集(parallel acquisition):多个通道同步并行采集,每个通道采用一个独立的a/d转换器,通道采集速率只取决于a/d的转换速率,与通道数无关。

③交替采集(internative acquisition):一个通道由多个a/d转换器交替采集,使每个通道采样速率等于多个a/d的转换速率之和,可以高于单个a/d的转换速率。

(3)采集数据的实时分析与处理软件

目前国外的测试仪器或系统生产厂家,在生产硬件的同时,推出其相应的支持软件或软件开发平台,如为产品开发者提供的软件工具;为系统集成者提供系统应用软件的集成的环境;为终端用户提供编写自己的用户应用程序的手段。

1.4 本文主要内容和章节安排

本文完成了一种基于matlab的数据采集系统的方案的设计,实现了在matlab环境下利用声卡和matlab数据采集工具箱进行的数据采集与分析。

全文的结构安排如下:

第一章 绪论,说明了研究背景、意义、国内外现状,以及系统的发展现状。

第二章 主要介绍了系统结构特点及性能

第三章 主要介绍了声卡、matlab软件及其工具箱的使用

第四章 主要讨论了系统结构功能设计与实现,以及数据采集与分析的具体过程

第五章 主要对数据采集进行了举例

2数据采集系统结构特点

2.1 系统组成结构

数据采集系统主要由两部分组成:采集子系统和计算机子系统,即下位机智能数据采集系统和上位机 hmi(human machine interface)系统。采集子系统实现将客观世界被测对象信号采集和转换为能被计算机处理的数字信号的功能等;计算机子系统实现对采集数据的控制、存储和处理等功能,计算机起着对采集数据的存储和处理、统计分析、提供人机接口与其他计算机的数据通信和交换的功能。

数据采集系统涉及多学科,所研究的对象是物理或生物等各种非电或电信号。根据各种非电或电信号的特征,利用相应的归一化技术,将其转换为可真实反映事物特征的电信号后,经a/d转换器转换为计算机可识别的有限长二进制数字编码,以此作为研究自然科学和实现工业实时控制的重要依据,实现对宏观和微观自然科学的量化认识,典型的数据采集系统组成如图2-1所示。

图2-1 典型数据采集系统的组成

而一般的外置式数据采集系统结构如图2-2所示。模拟信号由传感器采得经过信号调理模块送入数据采集硬件设备。在数据采集设备中完成a/d转换,包括采样、量化、编码,转化成数字信号后送入与之相连的pc机中。根据不同的要求,在pc机上利用matlab以及二次编程实现数据的实时分析与处理。用户可以通过人机交互界面修改、设定各项参数来控制数据采集硬件设备的工作状态,同时可以得到数据的采集与分析结果, 从而实现数据采集与分析的自动化。

图2-2 一般的外置式数据采集系统结构

利用声卡在windows环境下开发数据采集系统时,由于受编程语言的限制,其数据分析与处理的功能非常有限。例如,为了对所采集的数据进行功率谱分析,则需要用户以vb或c语言来编写功率谱分析的子程序,这显然增加了开发的难度,并且也极不利于分析功能的进一步扩展。

而利用声卡作为a/d转换工具,经过衰减和取样电路得到的模拟信号送至声卡的线路输入端linein,并利用matlab中提供的数据采集工具箱,可满足控制声卡进行数据采集的要求。用户通过调用matlab命令, 可对采集的数据进行分析和处理。

整个系统可分为数据采集和数据分析两大部分,以友好的图形界面与用户进行交互沟通。数据采集部分实现数据采集功能,根据用户选择的采样频率和预设的采样时间,从声卡获得用户需要的数据;数据分析部分对采集到的数据进行频谱分析。全部数据的时域和频域波形以图形方式直观地呈现于用户面前。此外,还提供保存数据以及回放数据的功能。

图2-3给出了基于matlab的数据采集系统的简图,主要部件数据采集工具箱提供了硬件驱动程序和matlab环境之间“对话”所需的硬件驱动程序适配器、数据采集引擎和m-文件函数.

图2-3 基于matlab的数据采集系统简图

硬件驱动程序适配器在硬件驱动程序和数据采集引擎之间交换属性数值、数据和事件;数据采集引擎用来存储各个设备对象,以及每个设备对象的属性值;对采集到的数据进行存储并且使不同事件同步;m-文件用来创建设备对象、采集或输出数据、配置属性值和检测数据采集状态和数据采集设备。

2.2 系统的特点和性能指标

现代数据采集系统发展到今天,一般来说具有如下主要特点:

(1)现代采集系统一般都由计算机控制,使得数据采集的质量和效率等大为提高,也节省了硬件投资。

(2)软件在数据采集系统中的作用越来越大,增加了系统设计的灵活性。

(3)数据采集与数据处理相互结合的日益紧密,形成数据采集与处理系统,可实现从数据采集、处理到控制的全部工作。

(4)数据采集过程一般都具有“实时”特性,实时的标准是能满足实际需要;对于通用采集系统一般希望有尽可能高的速度,以满足更多的应用环境。

(5)随着电子技术的发展,电路集成度的提高,数据采集系统的体积越来越小,可靠性越来越高,甚至出现了单片数据采集系统。

(6)总线在数据采集系统中有着广泛的应用,总线技术它对数据采集系统结构的发展起着重要作用。

评价一个数据采集系统的性能有很多指标,但是一般采用以下几个比较常用的指标进行评价。

(1)系统分辨率

系统分辨率是指数据采集系统可以分辨的输入信号的最小变化量。通常可以用如下几种方法表示系统分辨率:

使用系统所采用的 a/d 转换器的位数表示系统分辨率;

使用最低有效位值(lsb)占系统满度值的百分比表示系统分辨率;

使用系统可分辨的实际电压数值表示系统分辨率;

使用满度值可以分的级数表示系统分辨率。

(2)系统精度

系统精度是指当系统工作在额定采集速率下,整个数据采集系统所能达到的转换精度。a/d 转换器的精度是系统精度的极限值。实际上,系统精度往往达不到a/d 转换器的精度。因为系统精度取决于系统的各个环节(子系统)的精度,如前置放大器、滤波器、模拟多路开关等。只有当这些子系统的精度都明显优于 a/d 转换器的精度时,系统精度才有可能达到 a/d 转换器的精度。系统精度是系统的实际输出值与理论输出值之差,它是系统各种误差的总和,通常表示为满度值的百分数。

(3)采集速率

采集速率又称为系统通过速率或吞吐率,是指在满足系统精度指标的前提下,系统对输入的模拟信号在单位时间内所能完成的采集次数,或者说是系统每个通道、每秒钟可采集的有效数据的数量。这里说的“采集”包括对被测物理量进行采样、量化、编码、传输和存储的全部过程。

(4)动态范围

动态范围是指某个确定的物理量的变化范围。信号的动态范围是指信号的最大幅度和最小幅度之比的分贝数。

2.3 系统常见的几种结构形式

(1)多通道共享采样/保持器和 a/d 转换器数据采集系统

这种系统构成如下图所示,这种结构形式采用分时转换工作的方式,多路被测信号共用一个采样/保持器和一个 a/d 转换器。当采样保持器的输出已充分逼近输入信号(按给定精度)时,在控制命令的作用下,采样保持器由采样状态进入保持状态,a/d 转换器开始进行转换,转换完毕后输出数字信号。在转换期间,多路开关将下一路信号切换到采样/保持器的输入端,系统不断重复以上的操作,可以实现对多通道模拟信号的数据采集。采样方式可以按顺序或随机进行。

多通道共享采样保持器和 ad 转换器数据采集系统图

这种采集系统结构形式最简单,所用芯片数量少,适用于信号变化率不高、对采样信号不要求同步的场合。如果被测信号变化速率较慢,可以不用采样保持器,直接进行 a/d 转换。如果信号很弱而干扰噪声强,需要在系统电路中增加信号放大电路和滤波环节。

(2)多通道同步数据采集系统

多通道同步型数据采集系统图

其结构如上图所示,也属于分时转换系统。

多路模拟输入信号共用一个 a/d 转换器,但是每个通道各有一个采样/保持器,在同一采样指令控制下对各路信号同步进行信号采样,得到各路信号在同一时刻的瞬时值。模拟开关分时将各路采样/保持器切换到 a/d 转换器上,进行模数转换。这些同步数据可以描述各路信号的相位关系,所以这种结构被称为同步型数据采集系统。

由于各路信号必须串行的在共用的 a/d 转换器中进行转换和计算,若采样信号回路过多时,这种采集结构的速度仍然较慢。

(3)多通道并行数据采集系统

多通道并行数据采集系统框图如上图所示。这种结构形式中,每个通道都有自己的采样保持器和a/d转换器,经过a/d转换的数据经过接口电路送到计算机中。相对于前两种数据采集系统,这种结构形式的数据采集速度最快,但所用的硬件电路复杂,成本较高。

通用型模拟量数据采集模块则属于这一类的数据采集子系统。数据采集模块是属于单片机的智能器件,在整个数据采集系统中,每个模块可以认为是实时、并行地工作,每个模块仅完成几路信号的检测和采集,实时响应性能优。

(4)分布式数据采集系统

以上介绍的三种结构形式中,系统各部件之间的空间距离很近,逻辑上耦合程度紧密,都可以称之为数据采集系统。这种系统的优点是:结构简单,容易实现,能满足中小规模的集中数据采集的要求。在市面上均有成熟产品可供选用。系统的体积和设备量小,造价低。

由于工作原理、结构形式和性能设计等原因,这类系统也存在不少缺点:

因为系统结构不灵活,不易扩展,所以不适合大规模的数据采集应用场合。抗干扰能力差,尤其对于被测对象物理位置分散、传感器输出的微弱信号需要长距离传输时,所受的干扰不容忽视的。可靠性差。系统结构中某一部件出现故障会导致整个系统工作崩溃。由于各部件之间紧密耦合,导致系统的可扩展性和灵活性差。分布式数据采集系统是数据采集技术、计算机技术和通信技术综合和发展的产物,基于“分散采集、集中管理”的思想设计的系统结构形式,由若干个“数据采集点”和上位机以及通信接口组成。分布式数据采集系统结构如下图所示:

分布式数据采集系统图

处于分散部位的数据采集点相当于小型的集中数据采集系统,位于被测对象的附近,可独立完成数据采集和预处理任务,并将采集的数据转换为数字信号的形式传送给上位机,采用数据传输的方法可以克服模拟信号传输的固有缺陷。分布式数据采集系统的主要特点是:

(1)系统适应能力强。因为可以通过选用适当数量的数据采集点来构成相应规模的系统,所以无论是大规模的系统,还是中小规模的系统,分布式结构都能够适应。

(2)系统可靠性高。由于采用了多个数据采集点,若某个数据采集点出现故障,只会影响某项数据的采集,而不会对系统的其他部分造成任何影响。

(3)系统实时相应性好。由于系统各个数据采集点之间是真正“并行”工作的,所以系统的实时相应性较好。

(4)另外,这种数据采集系统是用数字信号传输代替模拟信号传输,有利于克服常模干扰和共模干扰。因此,这种系统特别适合于在恶劣的环境下工作。目前对于大规模的数据采集场合一般都采用分布式结构,根据不同的数据采集工作原理、结构形式和性能特点,在本系统中采用集中式的数据采集器件作为数据采集终端,采用上下位的连接方式,最终组成整个数据采集系统。

3 matlab软件

3.1 matlab 简介

matlab 是美国mathworks 公司开发的一种功能极其强大的高技术计算机语言和内容极其丰富的软件库,它适合于工程各领域的分析设计与复杂计算的软件,该软件包括基本部分和专业扩展两大部分.扩展部分称为工具箱,用于解决某一方面的专业问题.它以矩阵和向量的运算以及运算结果的可视化为基础,把广泛应用于各个学科领域的数值分析、矩阵计算、函数生成、信号处理、图形及图像处理、建模与仿真等诸多强大功能集成在一个便于用户使用的交互式环境中,为使用者提供了一个高效的编程工具及丰富的算法资源。对于信号处理和图像处理等数字处理领域,matlab 更是得天独厚,它丰富的m文件和强大的绘图可视功能为使用者带来了极大的方便, 被广泛的应用于信号与图像处理、控制系统设计、通信、系统仿真等诸多领域,尤其对初学者可起到事半功倍之效。

matlab是一种解释语言,所有的程序和指令都必须在matlab解释器中读入后才能运行,因而极大地限制了代码执行速度。matlab强大的计算功能只能在其平台上才能使用,也就是说,必需在安装了其解释器的机器上才能使用matlab的m文件,这样就给工程应用带来了很大不便。对于一般用户来讲,matlab只能作为离线的计算和分析工具,而不能作为实时的工程工具。幸运的是,开发matlab的mathworks公司为广大的应用者提供了应用程序接口(api,applicationprogram interface)和编译器(compiler)。利用matlab和c语言交互,也可以开发基于matlab的数据采集系统。如果配上数据采集线路,该系统就可以作为一个虚拟仪器来使用。

3.2 数据采集工具箱及声卡简介

matlab 自带的数据采集工具箱(data acquisitiontoolbox, daq) 能更容易地将实验测得的数据进行分析和可视化操作。数据采集设备包括: 多媒体声卡、美国国家仪器e系列和1200 系列接口板、hewlett-packard-vxie1432- 系列接口板及其他各种数据采集硬件设备。数据采集硬件设备的内部特性对matlab 的接口完全透明, 无论是使用一个或几个硬件设备, 数据采集工具箱都会向所有硬件设备提供单一和统一的接口。通过调用matlab 命令和函数可对与计算机兼容的数据采集硬件设备进行访问并对其属性进行可视化监控。

数据采集工具箱是一种建立在matlab环境下的m函数文件和mex动态链接库文件的集合,包含3大区域的组件:m文件函数、数据采集引擎及硬件驱动适配器。它具有如下特点:是一种通过使用与pc机兼容的、即插即用的数据采集设备在matlab环境中的架构;支持模拟信号的输入输出以及数字信号的输入、输出,子系统还包括同步模拟输入输出的转换;支持声卡;事件驱动采集。

在matlab数据采集工具箱里集成了数据采集的m 文件格式的函数和mex文件格式的动态链接库。其主要特征如下:

(1)提供了将实时测量数据从数据采集硬件采集到matlab中的框架。

(2)支持模拟量输入(ai)、模拟量输出(a0)以及数字量i/0子系统,包括模拟量i/o实时变换。

(3)支持pc声卡和业界非常流行的数据采集设备如ni卡、并行口(lpt1-lpt3)、keithley卡等。

(4)采用事件驱动模式进行数据采集。数据采集工具箱由3部分组成:m文件格式的函数、数据采集引擎和硬件驱动,如图3-1所示。这些组成部分使得matlab与数据采集硬件之间的信息传递成为可能。

数据分析设计篇4

关键词:数据分析系统;交互界面;MFC;串口通信;USB通信

中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2013)12-2798-04

目前在激光准直、测角、自动跟踪等精密光电检测系统中,探测目标位置的连续变化已经变得非常重要。位置敏感探测器(Position Sensitive Detector,PSD)是对入射到光敏面上的光斑能量中心位置敏感的光电感应器件,可以利用少数几个输出光电信号的相对程度来计算位置信息。由其构成的数据分析系统具有位置分辨率高、响应速度快等特点[1];四象限探测器(Four-Quadrant photodetector,QPD)通过比较四个象限的电流来确定光斑中心在二维平面上的位置坐标,其数据分析系统可以探测目标位置的连续变化,具有位置分辨率高、响应速度快、调节方便等特点[2-3]。该文在对光电位置敏感器件构成的数据分析系统研究的基础上,开发了一套上位机软件界面。该上位机软件交互界面设计了供用户选择位置敏感器件型号及输入系统修正参数的窗口,通过对串口通信和USB通信方法的研究,设置了上下位机通信控制部分,同时,设计了光斑中心位置数据文本直观显示、模拟坐标绘制、历史信息保存模块,及设备状态显示模块。软件功能全面、界面友好、操作直观、方便,且适用于其他型号的位置敏感器件数据分析系统中。

1 开发工具简介

Visual C++ 6.0拥有强大的功能和友好的界面,能为用户提供一个良好的可视化开发环境,它将程序和资源的编辑、编译、调试和运行融为一体,且提供了大量的程序开发工具。MFC是它一个庞大的类库,实现了标准的用户接口,提供了管理窗口、菜单、对话框的代码,可实现基本的输入/输出和数据存储,为用户开发Windows应用程序建立了一个非常灵活的应用程序框架[4]。

在MFC中对消息的处理利用了消息映射的方法,该方法的基础是宏定义实现,通过宏定义将消息分派到不同的成员函数进行处理。因此,在这种机制的支持下,MFC具有强大的消息处理能力[5]。

借助VC++提供的软件代码自动生成可视化资源编辑的功能及MFC消息映射机制,可以很便捷地开发上位机软件交互界面。

2 交互界面设计

上位机软件交互界面包括供用户选择位置敏感器件型号及输入相应修正参数的窗口部分,上下位机通信控制部分,数据/设备状态显示部分。

2.1 供用户选择输入的窗口设计

利用下拉式列表框控件提供供用户选择位置敏感器件型号的窗口。通过给其连接变量m_Type,利用m_Type.AddString()函数为列表框添加选项,m_Type.SelectString(-1, "HY1315(Active area 1.3*15mm)")函数添加默认选项。软件通过m_Type. GetCurSel()函数获得用户的选择,完成相应量程及坐标轴范围的改变及显示。利用编辑框控件提供用户输入增益及修正系数的窗口,以完善数据处理[6]。

2.2 上下位机通信控制模块设计

上下位机通信控制模块是数据分析系统实时数据采集的核心部分。设计中采用了串口通信和USB通信两种方式进行数据采集与传输。其中,串口通信用于测试,USB通信用于实际数据传输。

图1 USB通信流程图

2.2.1 串口通信控制部分

利用单选按钮控件提供串口号选择窗口,通过函数GetCheckedRadioButton()获取串口号。通过按钮控制串口设备的状态,按钮交互的实现,通过MFC类向导对按钮按下时,触发消息BN_CLICKED进行拦截,并重写对应的消息处理函数On*Button(),在函数中完成相应按钮的功能。串口控制区中,“Open”、“Close”按钮对应的函数在获取用户选择的串口号后,分别完成对应串口的打开及关闭功能;“Start”、“Stop”按钮通过控制参数m_SPStop控制串口通信的开始与否。借助串口类成员函数OnComm()实现接收字符及相应数据处理的功能[7]。

2.2.2 USB通信控制部分

USB通信接口具有即插即用的特点,方便与微处理器进行联机通信,同时USB的通信效率要远远高于RS232、RS485等通信接口。USB通信控制部分通过按钮控制数据传输,根据用户选定的位置敏感器件型号,进行相应的数据处理。通信程序流程图如图1所示。

“Link”按钮通过标志位m_OpenFlag控制设备是否连接。“Start”和“Stop”按钮通过标志位m_stop控制数据接收与否。“Suspand”按钮通过参数m_pause控制数据传输的暂停和继续,当按下该按钮时,按钮改变为“Continue”字样,同时通过调用Invalidate()函数使整个客户区无效,这时Windows会在应用程序的消息队列中放置WM_PAINT消息,MFC为窗口类提供了其消息处理函数OnPaint();当再次按下该按钮时,OnPaint()函数负责重绘窗口,从而重新进行数据传输。

上下位机的数据通信通过直接调用CH375DLL.dll动态链接库实现。CH372是一款USB总线的通用设备接口芯片,是芯片CH375的功能简化版,硬件成本更低,且完全兼容CH375,可以直接使用其WDM驱动程序和动态链接库。CH372在计算机端提供了应用层接口,即由动态链接库DLL提供的面向功能应用的API,包括:设备管理API、数据传输API及中断处理API。设备管理API包含了打开设备函数CH375OpenDevice(),关闭设备函数CH375CloseDevice();数据传输API包含了读取数据块(数据上传)函数CH375ReadData(),写出数据块(数据下传)函数CH375WriteData()等[8]。

2.3数据/设备状态显示设计

上位机软件在数据传输过程中,借助CString类成员变量stateinfo直观显示设备状态。数据接收处理后,借助Format()函数,以文字形式直观显示光斑中心位置的横纵坐标值,利用绘图函数在模拟坐标中显示光斑位置。借助文件实现数据历史信息保存的功能,关键代码如下:

GetDlgItem(IDC_RECEIVE_EDIT)PostMessage(WM_VSCROLL,SB_BOTTOM,NULL);

CString strPath;

图2 HY1315系统调试结果图

GetModuleFileName(NULL,strPath.GetBufferSetLength(MAX_PATH+1),MAX_PATH);

strPath.ReleaseBuffer();

//此时strPath内容为工程文件全路径,如:E:\TestPro\Exam\ Test.exe

//以下函数作用是获取最后一个"\"的位置

图3 四象限探测器系统调试结果图

int nPos=strPath.ReverseFind('\\');

//开始取全路径

strPath=strPath.Left(nPos+1);//此时strPath保存为当前工程的全路径,如:E:\TestPro\Exam\

//保存文件

CFile m_rFile;

if(!m_rFile.Open("Rec.txt",CFile::modeCreate | CFile::modeWrite)) {

AfxMessageBox("创建记录文件失败!");}

m_rFile.Write(m_Receive,m_Receive.GetLength());

m_rFile.Close();

3 实际调试结果

上位机软件设计完成后,运行程序,选择位置敏感器件的型号为默认选项,即一维位置敏感探测器HY1315,连接其对应的系统设备,输入需要的增益参数,选择串口号,单击串口控制区“Open”按钮打开串口,“Start”按钮接收数据,此时上位机界面数据、设备状态显示,模拟光斑坐标结果如图2所示。再次运行程序,选择四象限探测器型号,即QP36(Active area 6*6mm),连接相应系统设备,单击USB通信控制区按钮,可以控制数据传输设备的状态,单击“Link”按钮打开设备,“Start”按钮接收数据,此时上位机软件界面结果如图3所示。

4 结束语

针对位置敏感器件构成的数据分析系统,通过对串口通信和USB通信方法的研究,借助VC++提供的软件代码自动生成可视化资源编辑的功能及MFC消息映射机制,设计了上位机人机交互界面。调试结果证明,该界面能够实现用户选择输入,实现数据的上下位机通信传输,直观显示数据,准确绘出光斑在模拟坐标中的位置,完成光斑位置的历史信息存储。设计为数据分析系统提供了一套功能全面、界面友好、操作直观、方便的上位机软件。应用中只需修改对应的数据处理,即可应用到其他类似的数据分析系统中,很大程度上增强了系统的实际应用性。该界面已用于PSD及QPD数据分析系统试验箱中。

参考文献:

[1] Henry J,Livingstone J.Improved position sensitive detectors using high resistivity subs- trates[J].J Phys D :Appl Phys ,2008,41.

[2] Liu Yun,De Xu,MinTan.A new pre-alignm ent approach based on four-quadrant-photo- detector for IC mask[J].International Journal of Automation and Computing,2007, 4(2): 208 -216.

[3] Guo Li,Zheng Shuang.A high-performanc -e smallsignal amplifier[J].Journal of Northe-ast Agricultuial University,2005,12(2):141-145.

[4] Wang Ziying.The design of scene simula- tion system based on MFC programming fra- mework[J].Advanced Computer Control (ICA CC).2010,V3: 302-305.

[5] 潘恒.基于VC++/MFC的麻将牌连连看程序设计.[J]科协论坛:下半月,2011,25(5): 53-54.

[6] 揣锦华.面向对象程序设计与VC++实践[M].西安:西安电子科技大学出版社,2005:201-204.

[7] Rong Jian,Zhao Cuilian,Fan Zhijian,et al. Realistic 3D face reconstruction based on VTK and MFC[J]. Optoelectronics and Image Processing 2010,V(2): 145-149.

[8] 边海龙,贾少华.USB2.0设备的设计与开发[M].北京:人民邮电出版社,2004:217- 220.

数据分析设计篇5

【关键词】HADOOP;数据挖掘;平台;分析;设计

一、数据挖掘技术概述

作为一门快速发展的技术,数据挖掘引起了信息产业界和社会的广泛关注。数据挖掘技术跨越多个学科,无论是数据库技术、机器学习、统计学、模式识别,还是神经网络,还是人工智能,数据挖掘都能从中吸取营养,不断发展。如今,随着云计算的出现和发展,数据挖掘技术迎来了新的机遇和挑战。

1.数据挖掘发展历程与分类

数据挖掘由单个算法,单个系统到并行数据挖掘与服务的模式,经历了数据挖掘软件开始和数据库结合、多种数据类型融合、分布式挖掘等多个过程。到今天,数据挖掘软件发展的历程,可以说是进入基于云计算的数据挖掘。

由于数据挖掘是一个交叉学科领域,是在包括机器学习,模式识别等多个学科的基础上发展而来。依赖于我们所用的数据挖掘方法,我们又可以使用其他学科的多种技术,如神经网络、模糊或粗糙集合论、知识表示等。所以,对数据挖掘的研究,我们会期望出现大量的各种类型的数据挖掘系统。这样,我们就需要对数据挖掘系统给出一个很清楚的分类。有了这种认识,我们才可以帮助用户根据其需求,确定最适合其需要的数据挖掘系统。

因此,数据挖掘的分类标准也必定会出现多样化。我们可以根据挖掘的数据库类型分类,或是技术类型分类,也可以根据运用的场景分类。但是大部分情况下,我们会根据挖掘产生的知识类型进行分类,也即是根据数据挖掘的功能进行分类。

2.数据挖掘流程

数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程,表现形式为规则、概念、规律及模式等。数据挖掘主要由以下步骤组成:

①数据预处理数据

预处理阶段主要为数据挖掘准备好数据。一般来讲主要包括数据清理和数据集成。对于大量的数据,难免的存在着噪声或不一致的数据。对于存在这些问题的数据源,我们必须进行数据预处理。现在,数据挖掘面对的挖掘对象的种类越来越多。半结构数据、web数据、来自云的数据等各种数据形式层出不穷。如何将数据挖掘技术使用到这些不同的数据结构中,数据预处理是非常重要的步骤和技术。它对于挖掘结果有着重要的影响。

②数据挖掘

一旦对数据的预处理工作完成,数据挖掘工作就开始了。这是整个数据挖掘过程的基本步骤,也就是使用智能的方法来提取数据模式的过程。数据挖掘阶段,根据挖掘任务的不同,我们会使用不同的技术和处理方法。常见的数据挖掘任务包括特征化、区分、分类、关联分析、聚类等。这是数据挖掘过程中最重要的步骤。

③模式评估

当数据挖掘一旦完成,就会生成挖掘的结果——模式。然而,这些模式不是我们都感兴趣的。实际上,对于给定的用户,在可能产生的模式中,只存在一小部分是他感兴趣的。如何表示我们对于模式的期望和兴趣,现在存在一些模式兴趣度的客观度量,包括规则的支持度,置信度等。在模式评估阶段,我们去发现只对我们来说是感兴趣的各种模式

④知识表示

对于用户感兴趣的模式,我们可以使用可视化和知识表示技术,以更直观的,更易于理解的方式向用户展现有意义的模式。这是与用户的直接交互,更友好的表示方法可以使用户更好的得到有意义的模式的全部内涵。这是数据挖掘过程中很重要的步骤,也是人们研究的一个重要方面。

二、典型数据挖掘系统构成

通过对数据挖掘过程有了一定的认识,一个典型的数据挖掘系统主要由下面的部分构成:

1.数据源:这可以是一个或一组数据库、数据仓库、展开的表、或其它类型的信息库,提供存储的数据。

2.数据源服务器:根据用户的数据挖掘请求,数据源服务器负责提取相关数据。

3.预处理模块:该模块执行数据清理、数据集成等操作,为数据挖掘过程准备结构良好的数据。

4.知识库:这是领域知识,用于指导搜索,或评估结果模式的兴趣度。这种知识可能包括概念分层,用于将属性或属性值组织成不同的抽象层。用户确信方面的知识也可以包含在内。可以使用这种知识,根据非期望性评估模式的兴趣度。领域知识的其它例子有兴趣度限制或阈值和元数据(例如,描述来自多个异种数据源的数据)。

5.数据挖掘引擎:这是数据挖掘系统基本的部分,由一组功能模块组成,用于特征、关联、分类、聚类分析、演变和偏差分析。

6.模式评估模块:该部分使用兴趣度度量,并与挖掘模块交互,以便将搜索聚焦在有趣的模式上,使用兴趣度阈值过滤发现的模式。模式评估模块可以与挖掘模块集成在一起。

7.图形用户界面:该模块在用户和挖掘系统之间通讯,允许用户与系统交互,指定数据挖掘查询或任务,提供信息、帮助搜索聚焦,根据数据挖掘的中间结果进行探索式数据挖掘。此外,该成分还允许用户浏览数据库和数据仓库模式或数据结构,评估挖掘的模式,以不同的形式对模式可视化。

在这个数据挖掘的基本系统中,模式评估模块可以直接的嵌入到数据挖掘引擎中,以便指导挖掘引擎只产生用户感兴趣的模式。同时,预处理和用户图形界面是很重要的功能模块,也是数据挖掘技术关注的新领域之一。

三、基于HADOOP的数据挖掘系统设计

通过对典型的数据挖掘系统的分析和研究,我们可以利用HADOOP平台集群巨大的存储和计算能力,组建基于HADOOP的数据挖掘系统。

1.基本设计思想

在经典的数据挖掘系统中,有的模块不需要很大的计算量,而有的模块需要非常大的计算量。充分利用HADOOP的集群特征,将数据挖掘系统中需要巨大计算能力的各个模块的计算和存储要求扩展到HADOOP集群中的各个节点上,利用集群的并行计算和存储能力来进行相关数据挖掘工作。我们可以采用分层的设计思想。在底层,使用HADOOP来存储、分析和处理巨大的数据量,而在高层通过接口直接透明的调用底层的计算和存储能力。其流程如下:

①存储

在整个系统中,我们可以使用HDFS来存储文件和数据。HDFS具有很高的数据吞吐量,并且很好的实现了容错机制。HDFS提供了多种访问接口,包括API以及各种操作命令。使用HDFS,我们可以为原始的大数据集提供存储空间,对临时文件进行存储,为数据预处理、数据挖掘过程提供输入数据,同时输出数据我们也保存在HDFS中。

②计算

在系统中,我们可以使用MapReduce将数据挖掘系统中具有大计算量特征的各个子模块的计算任务到集群中的各个节点以实现并行计算。MapReduce具有很好的伸缩性和扩展性,它屏蔽掉底层,通过提供编程接口使我们可以快速的实现各种算法的并行方式。实现过程中我们都需要紧紧结合HDFS。

2.系统结构模型

如图2所示,结合以上的基本设计思想以及典型的数据挖掘系统模型,采用分层的思想,自顶向下每层都透明的调用下层接口,最顶层为交互层,用于用户和系统之间的交互。最底层为分布式计算层,使用HADOOP来实现文件分布式存储和并行计算功能。使用分层,各层之间变得独立,易于系统的扩展。下面详细介绍我们得到的基于HADOOP的数据挖掘系统。

①交互层

这一层主要提供系统和用户之间的接口。通过提供具有良好表现形式的图形界面,使得用户可以登陆系统定制各种细粒度的业务,查看或者保存各种输出结果。

②业务应用层

这一层上提供了各种业务逻辑并实现了对各种业务流程的控制和调度。用户提交的业务在这一层被处理,控制和调度。如:用户在交互层提交的对特定数据完成分类挖掘的业务在在一层被处理。业务应用层通过调用数据挖掘算法层的多个模块来完成交互层提交的业务,并返回结果到交互层。业务应用层还控制和调度着数据挖掘平台的各个模块的执行。

③数据挖掘平台层

数据挖掘平台层为业务应用层提供数据挖掘阶段业务流需要的各个模块,并且具有较细的粒度。如数据预处理,模式评估,数据挖掘,结果展示等功能组件。这一层是整个系统的核心,在这一层,主要的任务在于实现各种任务过程中算法的并行化,并将任务提交到HADOOP分布计算层进行运算。并将结果返回给业务应用层。

④分布式计算平台层

这一层我们使用HADOOP框架来实现集群存储、计算。HADOOP提供了分布式文件系统和并行的运行模式,同时实现了对分布式系统的管理。我们需要在此之上实现任务提交的server。

3.功能模块

在这个系统中,每一层都包含了各自的功能模块,以完成各层的任务。下面分别介绍各层具有的模块以及相应的功能。

①交互层具有的模块包括:

用户管理模块:实现用户身份的识别以及相应权限的设置,同时也包括对用户登陆或者注销等常用的管理。

业务模块:实现了细粒度的用户业务需求的提交。用户提交的各种业务通过业务模块得到完成。

展示模块:实现了用户对业务结果的查看,分析和保存等功能。用来将系统的返回结果交付给用户。

②业务应用层具有的模块包括:

业务响应模块:相应上层的业务模块,对完成业务所需的子业务进行调用、管理,并通过调用底层模块完成业务。

工作流模块:对业务状态进行监控、管理。可将具体的信息参数返回给本层的业务响应模块。

③数据挖掘平台包括的平台:

数据加载模块:将挖掘所需的数据进行注册并放入系统的HDFS文件系统。

结果存储模块:存放挖掘现在产生或者历史产生的各种模式。也可以叫做知识库。

模式评估模块:对产生的模式进行评估。此模块也可以被并行数据挖掘模块调用。

并行ETL模块:对数据进行预处理。输入的数据来自于HDFS文件中,并将处理结果也放入HDFS中,为挖掘过程进行数据清理,提取,转换和加载。

④分布式计算层:

HADOOP框架自身提供了HDFS,MapReduce运行模式、运算环境以及自动管理。

四、小结

本文介绍了数据挖掘流程并在此基础上设计了基于HADOOP的数据挖掘系统的基本架构。先对典型的数据挖掘系统做了分析和介绍,随后详细分析了基于HADOOP数据挖掘系统的需求,最后给出了系统的模型并简要介绍了各个功能模块。

参考文献

[1]韩家炜,坎伯.数据挖掘概念与技术[M].北京:机械工业出版社,2008.

[2]朱珠.基于Hadoop的海量数据处理模型研究和应用[D].北京:北京邮电大学,2008.

[3]魏红宁.基于SPRINT方法的并行决策树分类研究[J].成都:西南交通大学,2005,25(1):40-41.

[4]于蕾,刘大有,高滢,田野.改进SPRINT算法及其在分布式环境下的研究[J].吉林大学学报,2008,46(6):1120-1123.

数据分析设计篇6

关键词:数据库;加密;安全;SQL Sever

中图分类号:TP3文献标识码:A文章编号:1009-3044(2010)18-4866-02

Web Analysis and Design of Database Encryption Technology

CHENG Yan-yan

(Faculty of Mathematics and Information Science, Langfang Teacher's College, Langfang 065000, China)

Abstract: With the rapid expansion of information, many problems for example the safety problem is the urgent problems. The database encryption is the key problem of the safety problems. In this paper the safety characteristics of computer information, described the necessarily and basic theories of the encryption, discussed the design and implement of encryption technology of SQL Sever and Web database.

Key words: Database; encryption; safety; SQL Sever; Web

随着因特网技术的飞速发展,信息数据的海量存储,使得数据库系统显得日益重要。数据库中作为计算机信息系统的重要组成部分,在整个信息系统的构建中起着关键的作用。数据库技术从20世纪60年代起,经过短短几十年的飞速发展,现在已成为整个信息系统的核心内容,并得到了广泛的应用。数据库系统集中处理大量数据信息的任务,其安全问题日渐突出[1]。信息安全的关键所在就是数据的安全,所以安全的核心部分需要通过数据加密技术来实现。数据库的数据安全问题也越来越受到人们的重视。我国很多专家学者也都从不同的试验方法和手段技术出发,进行了不同的研究,取得了众多的成果。随着网上购物等电子商务的兴起和繁荣,以数据库为代表的信息安全已成为很多企业的共识。数据库加密系统是为增强普通关系数据库管理系统的安全性而设计开发的。其目的是提供一个安全适用的数据库加密平台,对通信和数据库存储的内容实施有效保护。它通过通信加密、数据库存储加密等安全方法实现了数据库数据存储和通信的保密性和完整性要求,使得数据库以密文方式存储并在密态方式下工作,确保了数据的安全[2]。数据加密的好处在于即使数据丢失,也很难被人识别或破译出来,避免了给企业和个人带来的经济损失。

常规的数据库安全主要依赖于数据库管理系统安全和应用程序设计控制,但是后两者一般都存在设计时的固有的缺陷。研究如何保护数据库安全,已经是目前迫在眉睫的问题。数据库中数据是以明文方式存在的[3],即是采用ASCII码明文存储,所以为了更有效地保护数据库安全,需要加密技术对数据库中的数据进行处理[4]。加密技术能够为数据库提供很好的安全性,但是花费在加密和解密上的时间会在很大程度上降低数据库系统的性能。因此,数据库中敏感数据加密系统的研究只是在解决数据库性能和安全性中做出合理的取舍[5]。随着信息量的迅速膨胀,信息安全已成为亟待解决的问题,而数据库加密则是保障信息安全的关键所在。本文从信息技术的安全性出发,阐述了数据库加密的必要性和加密的基本原理,并对SQL Sever数据库系统和Web数据库的加密设计和实现进行了探讨,具有重要的理论意义和现实意义。

1 数据库加密原理数据

加密就是把数据信息即明文转换为不可辨识的形式,即密文的形式,目的是非法人员不能够识别。明文即以ASCII码形式存储的DBF文件,通过特定的加密算法利用加密密钥转换成为不可阅读的密文件后存储在数据库中。这样即使非法人员拷贝或窃取了有关数据,没有解密密钥也是看不到数据内容的。目前常用的密码可包括序列密码、分组密码和公开密钥密码等。三种算法在不同的情况下有着不同的侧重点。

目前常用的数据加密技术主要包括系统内加密、数据库外层加密和数据库内层加密技术三部分。三种技术各有不同的侧重点,因此在应用的时候也是根据具体的数据库特点和应用的需求进行相关的加密处理。数据库加密系统设计的基本要求是对字段或索引进行加密、实现数据库密钥的自动化管理,对于未知的无法识别用户和非法用户可以防止拷贝和篡改数据,保护数据的合理性。

总体来说,一个完整的数据库加密系统技术包括以下几个方面:身份认证、通信加密与完整性保护、数据库数据存储加密与完整性保护、数据库加密设置、系统中可以选择需要加密的数据库列、多级密钥管理模式、安全备份[6]。

2 不同类型数据库加密设计与系统实现

在众多数据库加密系统设计中,本文以SQL Sever和Web数据库加密为例进行探讨。

2.1 SQL Sever数据库系统加密的设计与实现

SQL Sever 2008的透明数据加密功能相对众多加密方法来说是非常完美的。通过对数据的读取和写入存储在数据库中,然后进行加密处理。通常,加密人员不需要利用数据库加密特性来修改应用程序的选择,也不需要重写应用程序和加密代码,因此,SQL Sever的透明数据加密技术相对来说开辟了一个加密技术的新领域。

SQL Sever 2008中的核心部分就是SQL解析模块。SQL解析模块是整个加密系统设计中的关键所在。由于T-SQL语句的语法结构较复杂,所以SQL语句解析模块的设计也是整个加密系统中的一个难点。由于3DES也是基于DES的分组加密算法,其加密时也是按二进制位对明文进行分组,在加密DES模块在设计中,采用ASCII码为0x0o的字符,当解密还原为二进制的字符串后,由于其解密后的字符串也是用0X00填充,所以无需做特殊处理,直接进行类型转换即可保证数据在加、解密前后的一致性[6]。

2.2 Web数据库系统加密的设计与实现

2.2.1 基于B/S模式的Web数据库加密系统结构

基于B/S模式的网络信息系统,不需要开发专用的应用程序,用户通过浏览器实现与服务器的信息传输和访问,数据加密在Web服务器与后台数据库之间实现。加密算法是数据加密的核心,一个好的加密算法产生的密文应该频率平衡,随机无重码规律,周期长而又不可能产生重复现象。数据库索引,亦即选择条件,而条件中的选择项必须是明文,在对数据库加密时,要充分考虑到既要对数据库内容加密又要考虑到对数据库的索引进行相应的加密处理[7]。

2.2.2 Web数据库加密系统的实现

完整的Web数据库加密系统包括以下几大模块:1) 用户身份验证模块:采用基于角色的访问控制(RBAC)模型。2) 加密和解密模块:数据库的加解密模块是加密系统的关键所在,主要管理存后台数据库信息的加解密处理等内容。3) 密钥生成和管理:主要是对是对数据密钥和用户密钥的生成和存储进行存储、管理和分析等。4) 数据库连接模块:块由几个Java Bean构成,主要任务是对数据库进行查询、添加、删除和修改等操作同。5) 加密字典和管理程序:加密字典通常以配置文件或数据库表形式存在,利用各种索引关系对各种加密文件进行管理、控制和查询处理等内容。

3 结束语

数据库中的重要数据经过加密系统处理后,以密文形式存储,大大增加了安全性。虽然从安全层面对数据进行加密,使得非法用户侵入到系统中来或者是拷贝、窃取数据,增到了数据的安全性,系统发生故障时容易触发数据恢复的危险,数据加密以后也产生了一些新的问题,一方面,数据加密原本就是在数据库性能和安全性之间做出合理的取舍,安全性能增加,其数据库整体性能就会受到一定程度的弱化,所以在实际应用中,应根据具体的应用目的不同而采用不同的数据库加密等级。另一方面,目前通用的数据库加密技术主要为分组加密算法,该算法将加密后的密文重新写在原明文的位置,增大了加密后的明文占用的存储空间,降低数据库的整体性能。

参考文献:

[1] 糜玉林,朱爱红,李连.一个用于数据库加密算法的研究与实现[J].计算机工程,2005,31(8):131-133.

[2] 贾学芳.浅析数据库加密技术[J].科技信息,2009(2):324-325.

[3] 刘军.数据库加密技术[J].科技信息,2009(18):174.

[4] 张枢.一种数据库加密系统的设计与实现[J].林业科技情报,2008,40(1):62-63.

[5] 许方恒.数据库加密模型研究[J].实验技术与管理,2009,26(12):93-95.

[6] 楚志凯,吕秀平,路晓亚.SQL Server的数据库加密技术的研究与实现[J].电脑学习,2010(2):97-99.

数据分析设计篇7

关键词 内存数据库;空管系统;设计方案;信息数据

中图分类号:TP311 文献标识码:A 文章编号:1671-7597(2014)20-0107-01

在全球经济一体化的形势下,世界各国之间的经济交流越来越频繁,推动了民航事业的高速发展。随着我国社会经济的不断发展,人们的生活水平逐渐提高,对生活品质的要求也随之增高,而飞机则成了人们出行最为便捷的交通方式,颇受人们的喜爱。为此,我国民航事业受到社会各界人士的重点关注,在这个新时期下,民航事业虽然迎来了较好的发展机遇,但是同时也需要接受更多的考验。鉴于这种情况,民航企业必须加强空中交通管制,提高飞机出行的安全性,以为人们提供更为优质的飞行服务,推动民航事业的可持续发展。在民航空中交通管制过程中,可以充分利用内存数据库技术,以保障民航空中管制系统的正常运行,提高其运行效率,能够准确地掌握飞机在空中飞行的状况,对其进行科学的指挥,以使更多的人出行采用飞机这种交通方式,实现民航企业经济效益最大化。

1 内存数据库的相关内容

内存数据库是一种在内存中对数据进行直接操作和处理的数据库,相比于磁盘来说其功能性更好。在处理数据方面比较快,能够对数据进行缓存、快速计算等工作。内存数据库的特点在于能够实施良好的内存拷贝,保障数据库中的数据具有实时性。内存数据库与传统数据库的不同之处在于其主要是对数据进行短暂的处理,不提供持久的数据服务,主要用于处理一些具有较强时效性的数据和业务,能够提高系统的吞吐量,减少成本费用,是一种新型的数据库形式。

2 空管系统的相关概念

空管系统是民航事业发展过程中的重要应用系统,通常采用的是集中式内存数据库,需要提供大量具有时效性的数据信息。空管系统是用来管理起飞和下降的飞机航行状况,目标在于提供良好的航行环境,维持飞机的飞行秩序,保障飞机的安全运行。空管系统需要根据内存数据库中所提供的信息来避免飞机在空中相撞,防止飞机在跑到滑行时与其他车辆相撞,促进飞机空间利用率的提高。

3 内存数据库在空管系统中的设计

3.1 内存数据库的储存结构和检索设计

在内存数据的储存结构设计中,传统的内存数据库所采用的分配方法不利于现代数据的处理,很容易出现内存碎片而影响了内存管理器的工作效果。而且过去在空管系统中的所应用的内存数据库,所需要处理的数据数量十分多,常常要进行删除操作,数据处理的效果不够好。因而,为改善这一状况,在设计内存数据库的储存结构时,要避免数据块大小相差过大,管理内存的时候可应用预分配的方式。所谓预分配方式则是指按照空管系统运行中的相关要求来进行一次性申请,控制内存的大小,当系统在最初运行的时候,可将内存数据库的数量进行规定。如果内存数据库的数据增加,则可以做第二次申请,以增加数据的数量。在设计储存结构的时候不需要永久储存的功能,这是因为空管系统所需要的是一些具有时效性的数据。新设计的内存数据库的储存结构要能对储存超时的数据做出处理,在一定时期内释放内存空间。除此之外,对于一些比较重要的数据,可以将其进行备份。

在内存数据库的检索设计中,可充分结合HASH和T树的优势之处。T树是具有平衡性,能够确保在进行插入和删除的时候不会因不平衡而影响了内存结构。在实施插入操作的时候只需要进行一次旋转操作,在实施删除操作的时候则需要多次旋转操作,以恢复T树的平衡状态。而HASH则已经广泛的应用各大系统中,这种数据结构主要是通过HASH表和散列函数展现。在空中交通管制系统中,对于数据的处理尤其独特的要求,对数据的实时性的要求十分高。在此系统的内存数据库操作中,需要进行多次的数据插入和删除操作,以淘汰已经过了时效的数据信息,留下最新的数据信息。因而在内存数据库的检索设计中,可以将HASH作为检索算法。

3.2 内存数据库的访问接口设计

在内存数据库的设计过程中,访问接口处的设计四分重要。在ATC系统中,设置了多个设备来进行数据的采集工作,并将这些采集设备放置于不同的主机上,以使得内存数据库能够被多个计算机用户所读取和访问。所设计的数据库所采用的是C/S模式,在访问接口处应用的是动静态库。可通过服务器来发挥内存数据库的功能。在设计客户端口的时候,可充分利用add函数、get函数、getnumindex函数等来制定科学的设计方案。这种内存数据库的访问接口的设计,可对底层函数进行有效的调用,统一访问接口,对于外部的访问只允许其进行一般的插入、查询等访问方式。

3.3 内存数据库的实验设计

在空中交通管制系统中,可以采用Oracle 10g这种数据库,与此同时将服务器端的版本也升至同级,而客户端的访问则以OC19为基础。通过对内存数据库进行实验设计,有利于研究内存数据库插入和删除的操作密集状况,对不同时间段的内存数据库操作进行对比,以完善内存数据库的设计方案。

4 结束语

21世纪是一个信息时代,科学技术日新月异,不断地创新和改进,尤其是计算机技术的发展,对社会的生产和生活产生了巨大的影响,改变了社会的生产方式,调整了人们的生活方式,具有重要的影响作用。在民航事业中应用相关的计算机技术,是时展的必然趋势,是我国现代民航事业发展的必然需求,必须予以高度重视,不容忽视。在空中交通管制过程中,需要对信息数据进行科学而快速地处理,以确保信息数据的时效性。然而过去所使用的空管系统内存数据库已经无法实现新时期下空管工作对数据的要求,必须不断地改进内存数据库技术才,采用全新的内存数据库模式,以提高信息数据的处理效果,充分发挥空管系统的功能和作用,从而提高内存数据库在空管系统中应用的有效性。

参考文献

[1]刘敏,费向东,胡术,等.空管系统中内存数据库的设计与实现[J].计算机工程,2010(36)

数据分析设计篇8

在测震过程中,地震数据采集器是重要的设备,其性能的优劣直接影响地震监测资料的精确性、可靠性及连续性,而且对判断地震性质及成因起着至关重要的作用。由于水库诱发地震自身具有震级小、震源浅、主频较高及破坏度较大等特点,为此需要数据采集器各项性能能适应这些特点,应具备高分辨率、高精度、高可靠性等特性,具体来讲要求地震数据采集器具有宽频、高保真、高信噪比、高动态、高分辨率,只有这样才能完整地记录地震信息。为此,笔者研发了一套基于ARM9平台的地震数据采集系统,该系统应用嵌入式ARM内核处理器作为系统核心控制,充分利用ARM内核芯片的电气特性和A/D转换芯片(CS5373)的高分辨率特点,从而大大地增强了仪器的实时可操作性、降低了仪器本身体积及功耗、提高了数据采集速率及数据精度,并且能通过模拟开关进行灵活的通道选择,能实时采集地震监测数据。经现场测试该系统性能比较稳定,各项技术指标达到了预期目标,适用水库诱发地震专业监测与研究的需要。

1设计指标

根据水库诱发地震特点,需要研发的地震采集器具有以下技术性能:(1)最高数据采样率应达到500Hz;(2)同时采集数据通道不低于3个;(3)数据输出间隔时间低于0.96s;(4)采集分辨率达到24bit;(5)系统授时不大于1ms;(6)本机噪声小于1uv(RMS)。

2设计思路

针对水库诱发地震的特点及使用环境,要求地震监测系统具有较高的灵敏度、更好的抗干扰性能,更大动态范围、更高线性度、更强的兼容性,且功耗低、可靠性高。围绕着这些性能要求,该系统采用了多项先进技术,如在选择元器件上,全部采用工业级器件,尽量使用低功耗,耐高、低温,且适用于环境温湿度较大的产品。在系统集成设计上,采用ARM9系列S3C2440微处理器作为核心控制芯片,负责向各个子系统发送控制指令,用FPGA技术控制数据时序和流程,在数模(A/D)转换上,利用24位?~芯片,采用过采样技术进行设计。在进行系统率定时,设计了正弦标定和阶跃脉冲标定两种方式。在开发环境方式上选用嵌入式开发模式。在进行数据处理时采用DSP处理技术,数字滤波方面有最小相位和线性相位2种模式供选择。模块的读、写、片选、复位等控制信号由S3C2440的通用I/O引脚控制,并选择高速USB总线传输技术的方式与上位机进行通信。

3实现方法

3.1主控制器

目前,在地震行业进行数据采集器设计开发时,选用的主控制器多是根据各自技术要求而定,有的采用SST系列芯片,有的采用S3系列芯片,也有的采用At-mel系列芯片,各芯片的性能和特点各不相同。本文采集器所要达到的性能要求是:高速过采样(500Hz)和高保真,数据输出间隔时间低于0.96s。经过性能比较,主控制单元采用三星公司生产的ARM9系列S3C2440微处理器作为核心控制芯片。S3C2440除能满足上述要求外,还能进行嵌入式开发应用,为系统升级和降低成本创造了条件。

3.2前置放大

在将地震模拟信息数字化之前,必须将高于奈奎特(Nyquist)频率的成份抑制到最低电平以下,才可避免在采样过程中将高于奈氏频率的模似信息成份折叠至感兴趣的频带之内,形成噪声或假频,便于用低通滤波器滤除高于奈氏频率成份。由于地震模拟信息经过滤波后,其信息强度非常微弱,需要进行前置放大后才能送到A/D转换单元,为此选用一款信噪比较高的芯片十分重要。经过技术性能比较,选用CS3301A芯片作为前置放大器。CS3301A芯片是一款差分输入低噪声输出的放大器,在0.1Hz~2kHz带宽下,其放大器的噪声性能很佳,噪声密度只有8.5nv/Hz,非常适合于低频和野外环境使用,其增益也可编程控制(可进行1~64放大倍率设置)。图2是前置放大器原理图,电路主要由两级组成,两级采用直接耦合的方式连接,第一级把双端输入地震信号放大,然后单级输出,再通过第二级差分线性放大器转变信号输出方式。采用这种工作方式,一方面为A/D转换提供双端输入差分信号,另一方面是为了进一步消除输入电路的共模信号。

3.3模/数转换(A/D)

模/数转换(A/D)是指将地震模拟信息进行数字化处理,便于后续进行数据系列运算。由于水库诱发地震与天然构造地震相比具有震级小、震源浅,大部分强度相对较弱的特点,因此要求数据采集器具有较高的分辨率、保真度及灵敏度,要实现这些技术性能要求,关键取决AD芯片的性能和设计方案选择,经性能比较和筛选认为,CS5373A芯片结合过采样技术可具有这方面性能。CS5373A芯片具有四阶Δ-Σ24位ADC,其功能是将CS3301A放大后的信号进行数字化,形成512kb/s的比特流信号,然后将转换后的数字信号送入CS5378进行数字滤波,完成模数据转换过程。CS5373A与CS5378之间是通过4个信号线连接来完成ADC转换过程并传输转换结果(图3)。

3.4数字滤波

由于24bit地震数据采集器使用了大比率的过采样和噪声整形技术,因此在采样前仅使用1个一阶模拟滤波器即可完成数据采样前的去假频滤波,大量的滤波运算移至数字化后进行。为了将高速率的过采样数字信息变换至最终输出所需要的低采样率(如常用的100sps或500sps)必须经过多次滤波抽取才能完成。这时的滤波是用数字方式实现的,每次抽取必须配以相应的滤波才能避免重新抽样过程引入的折叠噪声。在该系统中均预置了两种类型滤波器供使用时选择,一种是线性相位滤波器,该滤波器的特点是:其相位频率特性是线性的,其群时延特性亦是完全平直的,用线性相位滤波器来处理地震波形数据,可以保证地震波中各频率成份在滤波前后具有完全相同的相位关系,用其来处理地震信息,其波形失真最小;另一种是最小相位滤波器,是一种使输出信号的相位延迟达到最小的线性滤波器,它属于纯相位滤波器的一种,这种滤波器不改变信号的振幅谱,而只改变信号的相位谱,滤波器的相位延迟数值为滤波器的相位谱除以2πf。就幅频特性而言两者均可以很好完成数据重抽所需的要求。二者若使用不当会造成采集的地震波形数据可用度降低,甚至误导分析人员,使其对震相错误识别。该系统的数字滤波器采用CS5378芯片配合CS5373完成数字滤波工作,经测试验证,效果较好。

3.5系统授时

随着科学技术的发展与进步,很多高精度的时钟源可供地震监测选用,如GPS、北斗卫星等,GPS技术凭借其全天候、高精度和自动测量的优势得到了广泛应用,该系统采用GPS时钟进行授时,可使时间精度达到1ms以内。在实现GPS授时的过程中,采用GPS模块与ARM9进行调配,很好地完成了授时任务。

4软件开发

数据采集器软件分为ARM数据处理、FPGA指令控制和上位机应用3个部分。其中ARM部分用Linux平台来设计编写,FPGA部分用VHDL来设计,上位机应用部分用C++builder6.0环境来开发。基于ARM中S3C2440芯片的底层程序主要任务是数据采集器的驱动、数据存贮写入、操作系统移植及上位机应用程序设计等。上位机程序主要完成数据采集器与PC机之间的通信、采集参数的设置(含采样率、通信参数、触发参数、通道选择、数字滤波器选择、授时方式等)和地震信息的实时采集及存贮等。

5性能测试

系统完成后进行了现场测试,测试工作分两步进行,第一步是系统率定,检测系统的幅频特性和传递函数;第二步是测试系统性能及功能,主要包括本底噪声、测量范围、前放增益、采样率、带道能力、分辨率、通信状态、数据存贮、触发能力及动态范围等。系统的各项技术性能达到预期的设计目标,可进入市场应用和推广。

6结语

本文所介绍的水库诱发地震数据采集器引用了嵌入式系统设计技术和FPGA逻辑控制技术及过采样数字滤波技术,可以在保证信号有效率的同时,提高信号的量化精度,设计过程中提供两种相位特征的数字滤波器(分别为线性相位FIR滤波器和最小相位JlR滤波器),很好地完成了项目中的各项技术指标。该系统虽然是针对水库诱发地震的一些特点进行设计和研发,但同样适用于天然构造地震和强震监测。该采集器具有更强的拓展性与兼容性,可与不同类型的地震计进行接口,完成各项监测任务。

上一篇:大学生市场报告范文 下一篇:毕业生培养方案范文