基于R语言的大数据处理平台的设计与实现

时间:2022-07-10 12:10:30

基于R语言的大数据处理平台的设计与实现

摘 要: R语言是一种基于统计、运算和绘图的数据处理方式,其能够较为理想地进行大数据处理工作。因此,设计基于R语言的大数据处理平台。当平台的用户请求层向技术层发送大数据处理指令,技术层随即开始工作,其处理结果也将反馈至用户请求层。技术层由大数据管理模块、大数据处理模块和R语言控制模块组成,大数据处理模块的EP1C6Q240C8芯片通过借鉴大型数据库内容,进行大数据的挖掘工作,并将其挖掘结果提供给大数据处理模块进行大数据的筛选、汇总、转换和标准控制。经大数据处理模块处理后的大数据,将通过串口通信电路回传给用户请求层。R语言控制模块为整个平台制订处理标准。软件方面利用R语言的类聚性能设计技术层挖掘功能图和大数据向量化处理代码。实验结果表明,所设计的平台能够对大数据进行高性能的处理。

关键词: R语言; 大数据处理平台; EP1C6Q240C8; 数据挖掘

中图分类号: TN911?34; TP914.2 文献标识码: A 文章编号: 1004?373X(2017)02?0053?04

Abstract: The R language is a data processing way based on statistics, computation and graphics. It can process the big data ideally. Therefore, the big data processing platform based on the R language was designed. When the platform′s user request layer sends big data processing instructions to its technology layer, the technology layer gets to work immediately, and feeds the processing result back to the user request layer. The technology layer is composed of big data management module, data data processing module and R language control module. EP1C6Q240C8 chip of the big data processing module is adopted to execute big data mining by means of content in a large?scale database, and provide the big data processing module with the mining results for big data screening, summary, conversion and standard control. The big data processed by the big data processing module is sent back to the user request layer through a serial port communication circuit. The R language control module works out the processing standards for the whole platform. The type clustering performance of R language is utilized to design technology layer′s mining functional diagram and big data vectorization processing code. The experimental result shows that the platform designed in this paper can carry out the high?performance big data processing.

Keywords: R language; big data processing platform; EP1C6Q240C8; data mining

0 引 言

网络时代的来临,使大数据不可避免地吸引到了各界的关注。大数据处理平台要求其处理方式应具有超强的决策能力,以应对大数据海量、多样性的特点[1?3]。R语言是一种基于统计、运算和绘图的数据处理方式,与普通处理方式相比,R语言能够实现更加复杂的数据处理,且处理效果较为理想。根据R语言的以上优势,设计基于R语言的大数据处理平台,使大数据处理平台具有较高的处理性能[4?6]。

科研组织也曾研究出一些较具特点的大数据处理平台,但这些平台的处理性能均有待提高,如文献[7]提出基于Jaql的大数据处理平台,该平台利用Jaql编辑处理语言缩减大数据传输量,最终提高平台处理性能,但由于Jaql编辑处理语言的处理能力有限,无法高效完成海量大数据的转换工作,致使整个平台的处理性能不高。文献[8]提出基于OPENMP的大数据处理平台,OPENMP是一种基于分布处理、集中管控的处理方式,其对大数据的兼容性较强,处理效率较高,但扩展性能较差,致使整个平台的更新能力欠佳,无法应对大数据的实时变化。文献[9]提出基于PR的大数据处理平台,该平台利用PR隐形并列的处理方式,将大数据特点进行剖析,只提取出其中的关键信息点,达到缩减大数据内存的目的,进而降低平台处理压力,但该平台的处理效率不高,大数据信息较易丢失。

基于上述大数据处理平台的缺陷,提出基于R语言的大数据处理平台,以实现大数据处理平台对大数据的准确高效解析、增强平台各项处理性能。

1 基于R语言的大数据处理平台设计

1.1 平台总体设计

基于R语言的大数据处理平台由用户请求层、技术层和多种大型数据库组成,如图1所示。

由图1可知,当用户请求层向技术层发送大数据处理指令,技术层随即开始工作,其处理结果也将反馈至用户请求层。技术层由大数据管理模块、大数据处理模块和R语言控制模块组成,技术层是基于R语言的大数据处理平台的重点设计部分。平台为技术层提供了多种大型数据库,技术层在实现大数据处理的过程中会借鉴这些大数据库的处理结果,保证平台处理性能。

1.2 大数据管理模块设计

大数据管理模块能够进行大数据的挖掘和供给工作,其进行大数据挖掘的主要借鉴对象有地方资源库、大数据档案库以及网络大数据地址。供给工作是指大数据管理模块将挖掘出的大数据进行分类、挑选后,将其按一定顺序供给大数据处理模块进行大数据的处理工作。大数据管理模块的核心控制元件选取了某公司设计的EP1C6Q240C8芯片。EP1C6Q240C8芯片的成本不高,且资源较多,是一种能够实现实时高效编辑的控制芯片。EP1C6Q240C8芯片拥有先入先出队列模式,其数据传输量高达36 b,传输速率最高可达300 MHz,能够有效减少基于R语言的大数据处理平台的大数据丢失率,并为平台的后期更新工作提供了技术支持。EP1C6Q240C8芯片结构图如图2所示。

由图2可知,EP1C6Q240C8芯片主要由逻辑阵列块和I/O块组成。逻辑阵列块中的锁相环是一种高性能反馈控制电路,锁相环能够根据挖掘信号实现基于R语言的大数据处理平台对大数据信号的分类,并可对分类后的大数据实施主动追踪。M4K存储器为平台提供大数据的分类存储区域。I/O块的主要作用就是实现大数据的传输工作,包括EP1C6Q240C8芯片的内部传输,以及大数据管理模块与大数据处理模块的通信传输。

1.3 大数据处理模块设计

大数据处理模块的主要工作是进行大数据的筛选、汇总、转换和标准控制。筛选是指将挖掘到的大数据中的不正常信息和错误格式筛选出来,常用的筛选方式有填补空缺法、标准值替换法、异常值隐藏法等。大数据处理模块进行的筛选工作是其第一流程,这一流程不能忽略,必要时应进行多次筛选,以保证基于R语言的大数据处理平台的准确率。汇总是指大数据处理模块将筛选后的大数据汇总并构建数据库的过程。在这一过程中,大数据在数据库中的准确、高效分类匹配是其应重点解决的问题。大数据处理模块利用R语言解决了这一问题。转换是统一大数据格式的过程,大数据处理模块利用A/D转换电路实现这一过程。

标准控制是指利用各项标准管控大数据处理的过程,基于R语言的大数据处理平台的常用标准有解压缩标准、维度标准、常规数值标准等,这些标准能够实时控制大数据处理模块对大数据的压缩、筛选、删除、替换等工作,是实现平台高性能的保证。

1.3.1 A/D转换电路设计

由于大数据管理模块挖掘出的大数据的格式并不统一,故需首先对大数据进行格式转换。A/D转换电路的转换性能直接影响着基于R语言的大数据处理平台的各项性能,故在A/D转换电路的设计中,应尽可能保证其转换的效率和准确率。

选用某公司设计的TLC5510I转换器作为A/D转换电路的核心元件。TLC5510I转换器是一种能够进行高速A/D转换的8位高阻抗并行A/D转换器。拥有了TLC5510I转换器,A/D转换电路便能够缩减掉其复杂的外接电路,减轻了设计难度,并间接节约了基于R语言的大数据处理平台的运行成本。图3是TLC5510I转换器结构图。

由图3可知,A/D转换电路经由TLC5510I转换器转换大数据格式,TLC5510I转换器主要由基准分压器、时钟发生器、采样比较器、采样编码器和数据锁存器组成。控制开关将根据大数据的内存状态对基准分压器中的三种电阻进行控制。时钟发生器会输出三种计时信号,这三种计时信号会直接传输给采样比较器,经由采样比较器按顺序依次传递给采样编码器和数据锁存器。

1.3.2 串口通信电路O计

经大数据处理模块处理过的大数据,需要一个传输性能较为完善的串口通信电路将处理后的大数据传输到用户请求层,所设计的串口通信电路简图如图4所示。

图4中,串口通信电路的传输芯片选用EP1C6Q256芯片,该芯片的工作电压范围是[1.43 V,1.58 V],能够在[0 ℃,85 ℃]的环境下工作。其拥有5 980个逻辑块,能够高效、准确且稳定地进行大数据传输。EP1C6Q256芯片控制着大数据的高性能输入和电源的稳定供电,使串口通信电路能够直接将处理后的大数据输入到用户请求层,提高了基于R语言的大数据处理平台的整体效率。

1.4 R语言控制模块设计

R语言控制模块通过调取Java类加载器,为基于R语言的大数据处理平台提供所有技术支持,即制订平台的处理标准。Java类加载器是一种能够将大数据按需存储到内存中的虚拟设备,其独立于算法编译器,可以对大数据进行选择性处理。图5是Java类加载器结构图。

图5中,启动类加载器为R语言控制模块调用刚挖掘出的大数据进行读取,这部分大数据不能修改,只能对其进行R语言算法处理;扩展类加载器能够调用大数据处理结果,R语言控制模块可对其进行直接修改;应用程序类加载器是基于R语言的大数据处理平台的基础加载器,该加载器在日常工作中常处于休眠状态,当启动类加载器和扩展类加载器无法调用大数据时,应用程序类加载器便会启动并接手上述工作。

2 基于R语言的大数据处理平台的软件设计

技术层对大数据的挖掘工作是整个基于R语言的大数据处理平台的运行基础,为了保证技术层挖掘出的大数据拥有较高质量,平台利用R语言的类聚性能,设计了技术层挖掘功能图,如图6所示。

由图6可知,技术层挖掘功能图主要有预处理、分类和热点实现三种功能。预处理功能主要进行大数据预处理,其根据R语言向技术层中的大数据处理模块写入特征算法,将大数据向量化,即将一维数据格式变换成向量格式,并对向量格式的大数据进行分类。预处理功能对大数据进行向量化的代码设计为:

open motionless void entity g_identityf(Hash any_g,Hash

Standard> identityf){

Hashgoods g Identityf=fgoodsh Hash();

int document data=Flisted documents.format();

for(int a=0;n

{ //大数据回环处理

S document route=Flisted documents.gain(n);

Hashgidentityf = fgoodsh Hash();

Hashtemperature=any_g.gain(document troute);

Circle import=temperature.parameter setting().circle();

if(import.afterwards())

{ e into come into=(e into)import.next();

S data=come into.Getpassword().to S();

Standard value = (standard)Standard.analysis Standard(come into.gain cost().to S())*Identityfs.gain(data);

Gidentityf.export(data,value);}

goodsGIdentityf.export(document route,gidentityf);}}

分类功能包括大数据的分类挖掘和类聚挖掘,单一结构的大数据会直接进行大数据类聚挖掘,对于结构较为复杂的大数据,软件将先对其进行大数据分类挖掘,将热点状态不一致的大数据分开存储,最后进行类聚挖掘。热点实现功能包括热点跟踪和热点展示,原则上这两个功能是能够同时进行的,但出于对基于R语言的大数据处理平台各项性能要求的考虑,软件首先对分类后的大数据进行热点跟踪,验证其准确无误后,再对大数据进行热点展示。

3 实验分析

大数据处理平台的性能主要包括大数据写入和读取效率、大数据挖掘吞吐量以及大数据处理效率。为验证所设计的基于R语言的大数据处理平台的性能,现进行实验。实验选取性能较高的基于Hadoop的大数据处理平台和基于OPENMP的大数据处理平台,与本文平台进行对比。大数据写入和读取效率、大数据挖掘吞吐量的实验结果如图7~图9所示,大数据处理效率实验的处理时间结果如表1所示。

由图7~图9可知,大数据写入效率、大数据读取效率和大数据挖掘吞吐量的变化与大数据处理平台的处理线程数有一定关系,在特定范围内,处理线程数越多,平台的性能就越高,若超出特定范围,过多的处理线程数将导致平台性能下降。

因此,在实际应用中应选择适合的处理线程数。虽受处理线程数影响,但本文平台的大数据写入效率、大数据读取效率和大数据挖掘吞吐量性能均高于基于Hadoop的大数据处理平台和基于OPENMP的大数据处理平台。且根据表1数据能够得出,本文平台拥有较高的大数据处理效率。以上实验结果表明,本文平台能够对大数据进行高性能的处理。

4 结 论

本文设计了基于R语言的大数据处理平台。当平台的用户请求层向技术层发送大数据处理指令,技术层随即开始工作,其处理结果也将反馈至用户请求层。技术层由大数据管理模块、大数据处理模块和R语言控制模块组成。大数据处理模块的EP1C6Q240C8芯片通过借鉴大型数据库内容,进行大数据的挖掘工作,并将其挖掘结果供给大数据处理模K进行大数据的筛选、汇总、转换和标准控制。经大数据处理模块处理后的大数据将通过串口通信电路回传给用户请求层。R语言控制模块为整个平台制订处理标准。软件利用R语言的类聚性能,设计技术层挖掘功能图和大数据向量化处理代码。实验结果表明,所设计的平台能够对大数据进行高性能的处理。

参考文献

[1] 范炜玮,赵东升.大数据处理平台Spark及其生物医学应用[J].中国中医药图书情报杂志,2015,39(2):1?5.

[2] 李晓飞.基于云计算技术的大数据处理系统的研究[J].长春工程学院学报(自然科学版),2014,15(1):116?118.

[3] 刘培宁,韩笑,杨福兴.基于R语言的NetCDF文件分析和可视化应用[J].气象科技,2014,42(4):629?634.

[4] 李贞强,陈康,武永卫,等.大数据处理模式:系统结构,方法以及发展趋势[J].小型微型计算机系统,2015,36(4):641?647.

[5] 冯延蓬,仵博,孟宪军,等.大数据处理框架中基于MDP的任务调度算法[J].深圳职业技术学院学报,2014,13(1):7?10.

[6] 袁芬,徐从富.基于机会协作的农业物联网大数据处理系统设计[J].计算机应用,2014,34(7):2136?2139.

[7] 庞素琳.巨灾风险大数据处理应急分类、分解、分拣算法与应用[J].系统工程理论与实践,2015,35(3):743?750.

[8] 李敏,倪少权,邱小平,等.物联网环境下基于上下文的Hadoop大数据处理系统模型[J].计算机应用,2015,35(5):1267?1272.

[9] 方艾,徐雄,梁冰,等.主流大数据处理开源架构的分析及对比评测[J].电信科学,2015,31(7):152?157.

上一篇:基于ZigBee技术的远程无线智能灯光控制系统的... 下一篇:人本主义教育思想与对外汉语教学