云计算及其在生物信息学中的应用

时间:2022-09-21 12:44:04

云计算及其在生物信息学中的应用

生物信息学的发展产生了大量的生物数据,为分析生物问题提供了大量的信息,但也对数据的存储和计算能力提出了更高的要求。云计算可以提供无限制的存储和计算能力,并且有低廉高效、简单易用的优点,被视为解决大数据问题的一个强有力的工具。本文分析了云计算的特点,并介绍了其在生物信息学中的应用,对需要应用云计算的研究者提出了一些建议。

【关键词】云计算 生物信息学

下一代测序技术的应用产生了大量的测序数据,这对生物学特别是生物信息学在数据的存储、管理和搜索等方面带来了新的挑战。一直以来计算机存储和处理数据能力的增长速度都快于生物数据的增长速度,但2003年后,由于测序技术的发展使得测序成本大幅度下降,产生了大量的生物数据,计算机的存储和计算能力逐渐无法满足大数据的需求。这促进了云计算的运用和发展,它使得用户可以根据需求租用硬件设备和软件,避免了对硬件设备的大量资金投入和管理投入。

1 云计算定义

“云”是一个通过虚拟技术把云端计算机或是服务器连接在一起的服务网络。存储和分析数据都由“云”端的服务器或是计算机完成。中国云计算专家刘鹏给出如下定义:“云计算是一种商业计算模型,它将计算任务分布在大量计算机构成的资源池上,使用户能够按需获取计算力、存储空间和信息服务。”

按照资源的共享水平,云计算的服务模式分为三种,基础架构即服务(Infrastructure as a service), 平台即服务(Platform as a service)和软件即服务(Software as a service)。

IaaS(Infrastructure as a service) Service:基础架构即服务。它整合了基础设施如虚拟主机、存储设备、网络设备等资源成为一个服务平台提供给用户使用。IaaS位于网络的底层,向用户提供按需分配、按需付费的计算设备和存储设备。

PaaS(Platform as a service)提供服务平台,用户掌控运作应用程序的环境,可以在平台上应用,测试和开发软件。

SaaS(Software as a service)即在服务平台上提供软件供用户使用,用户只使用软件,不掌握操作系统、硬件等网络基础架构。用户不必自己安装软件,只需要浏览器连接到公共的服务平台即可。供应商会按照用户的要求安装所需的软件,并负责软件的升级和维护。

云计算的主要优点:

(1)把用户从安装和测试软件的工作中解脱出来。云计算平台可以按照用户的需求提供软件及硬件的服务。用户不需要考虑网络下面复杂的硬件架构,仅仅需要关注计算和分析就可以。

(2)按需租用计算资源可以让用户支付更少的费用。在云计算平台上,用户在最初时可以租用少量的机器,以后随着需求的增加或减少相应的增加或减少租用的机器。用户所付的费用就是实际租用机器的费用。

(3)云计算方便研究人员之间的数据共享和分析。不同研究者在本地服务器上安装的软件版本可能不同,所以共享数据和软件很困难。云计算可以使登录同一个平台的用户共享操作系统和所有的软件数据,保证了软件的版本同步更新。

2 云计算在生物信息中的应用

我们把云计算在生物信息学中的应用按IaaS, PaaS和SaaS三个方面分别介绍。

2.1 IaaS

用户租用云计算上的虚拟主机可以自己控制计算、存储等硬件设备,建立需要的计算环境。并且大量的生物信息学工具可以打包为虚拟镜像用于租用的云计算的虚拟主机上,可以很方便的进行多种数据分析。如CloVR提供的一个包含预配置和自动的生物信息学流程的虚拟主机,可以运行在本地的计算机上也可以运行在云计算平台上。这个虚拟机以Ubuntu和BioLinux为基础,安装了Grid Engine和Hadoop作为作业调度,Ergatis作为工作流系统,还有很多开源的生物信息学软件,如BLAST、16S rRNA等。用户也可以开发自己的软件运行在虚拟机上。Bioconductor是一个开源的关于R语言的生物信息学库,提供了一系列的软件包用于微阵列数据分析。用户可以下载Bioconductor提供的镜像安装到租用的云计算平台上。

2.2 PaaS

Galaxy Cloudman和Eoulsan可以看做PaaS。Galaxy整合了一系列的简单易用的工具,提供一个简易的网页用来分析数据。Galaxy Cloudman把Galaxy的软件工具打包成一个镜像,可以在AWS(Amazon Web Service)上应用。用户可以将其他安装在Galaxy平台上的软件安装到自己的云计算平台上,甚至可以在Galaxy Cloudman上定义插件。通过添加额外的工具,可以扩展默认函数并测试和使用。从这个意义上说,Galaxy Cloudman可以看做PaaS。

Eoulsan整合了很多下一代基因数据分析工具,如BWA,Bowtie,SOAP2,GSNAP,edgeR,和DEdeq于一个框架内,同时,它也支持用户自己开发的插件用于数据分析。

2.3 SaaS

很多传统的生物信息学工具如BLAST、UCSC Genome Browser仅仅用一个浏览器就可以登录到服务器使用相应的服务,它们也可以称为SaaS。这些服务一般由软件工具的开发者提供,伸缩性很差。我们主要介绍应用于云计算平台上可以伸缩的生物信息学工具。

短序列(读段)匹配是指将测序得到短序列匹配到参考基因组上,这是许多测序数据分析的第一步,如SNP识别和基因表达谱分析。CloudBurst,CloudAligner,SEAL和Crossbow都是应用于云计算基于MapReduce的软件,可以匹配数以百万计的序列。Schatz用”seed-and-extend”算法开发的CloudBurst可以确定错误匹配的数目。CloudBurst模仿了RMAP的算法,但速度提高了30倍。但是CloudBurst不支持fastq文件,并且不能处理重亚硫酸盐测序和(双)末端测序产生的数据。CloudAligner弥补了这个缺点,并且比CloudBurst快35%到80%。SEAL整合了BWA,在序列匹配时可以去除重复的序列,这对SNP识别和以后分析很有用。应用MapReduce的Crossbow整合了Bowtie和SOAPsnp,可以在几个小时内匹配数以十亿计的序列。

差异表达分析可以用来寻找不同样本中表达有明显差别的基因,而RNA测序(RNA-seq)用来量化样本中的基因表达水平。Myrna是一个云计算平台上计算大规模RNA测序的软件。它整合了序列匹配、归一化、聚类分析和统计模型,直接输出不同样本的基因表达水平和不同表达水平的基因。然而,Myrna 最大的缺陷是不能正确地将短序列匹配到外显子拼接位点上。但FX弥补了这个缺点。FX用改进的匹配函数分析RNA数据,以RPKM或是BPKM的格式输出不同基因的表达水平。

3 云计算面临的问题

云计算提供了强大的计算能力,但云计算自身的特点也使它的发展面临了一些困难和制约。云计算在生物信息学上的应用尚处于初期阶段,尽管已经出现了一定数量的生物信息学工具,但仍有很多的分析无法完成,很多的工具还需升级或者开发。云计算上数据的隐私性和安全性也是用户需要考虑的方面。特别是一些生物数据涉及到病人的隐私,但很多国家还没有保护这种数据隐私的法律。云计算服务提供商需要制定一些规则来保护用户的数据。

4 对应用云计算的建议

对于将要使用云计算的用户,需要考虑以下三个方面:数据规模、安全隐私和费用。

数据规模及安全隐私:首先要考虑你的数据规模是否超过了本地计算机的处理能力。现在本地的个人电脑可以处理数千兆的数据,服务器一次可以处理数百G的数据。如果用户熟悉并行计算的技术,可以处理数TB的数据。但如果你的数据更大并且不精通并行计算,本地计算机和服务器就很难处理了,就可以考虑云计算。用户如果要向云计算平台上传输数据,需要考虑数据的安全性和隐私性。比如涉及病人的隐私是否会泄露,云计算服务提供商是否可以保证数据的安全等。

费用:云计算的费用一般是按照使用的计算资源的多少和使用时间的长短计算的。使用云计算前应该评估其使用费用。用户应该考虑所有阶段的费用,如数据传输、保存、分析等。

目前,云计算和生物信息学都处在快速发展当中,云计算在生物信息学中的应用也越来越广泛和深入。特别是生物数据的大规模增涨,生物学家必须从大量的数据当中分辨出有用的信息。这就需要强大的存储能力和计算分析能力,云计算可以很好的解决这个问题。 云计算和生物信息学的结合将极大的促进生物学的发展。

参考文献

[1]刘鹏主编.云计算(第二版)[M].北京:电子工业出版社,2011(05).

[2]Schatz MC,CloudBurst:Highly sensitive read mapping with MapReduce,Bioinformatics

25(11):1363-1369,2009.

[3]Nguyen T,ShiW,Ruden D,CloudAligner:A fast and full-featured mapreduce based tool.for sequence mapping, BMC Res Notes 4:171,2011.

[4]Hong D,Rhie A,Park SS,Lee J,Ju YS,Kim S,Yu SB,Bleazard T,Park HS,Rhee H,Chong H,Yang KS,Lee YS,Kim IH,Lee JS,Kim JI,Seo JS,FX:An RNA-seq analysis tool on the cloud, Bioinformatics 28(5):721-723,2012.

作者简介

李渊(1985-),男,河南省延津县人。硕士研究生学历。现为苏州大学系统生物学研究中心助理实验师。主要研究方向为实验技术。

作者单位

苏州大学系统生物学研究中心 江苏省苏州市 215006

上一篇:萍乡市国土资源“一张图”及综合监管平台设计... 下一篇:二维码在企业固定资产盘点中的应用