分布式存储系统建模技术研究

时间:2022-09-01 09:59:06

分布式存储系统建模技术研究

摘要:分布式存储系统的I/O性能影响着分布式系统的执行效率。由于影响系统性能的潜在因素错综复杂,所以分布式存储系统的性能和建模技术一直是重点和难点。本文深入分布式存储系统建模技术研究现状和关键问题。为分布式存储系统的设计、调优和评估起到积极的指导作用。

关键字:分布式存储系统;数据存储;建模技术;性能特征

中图分类号: TP311

信息资源的爆炸性增长,对存储系统的容量、可扩展性、数据可用性以及I/O性能等方面提出更高的要求。近年来,虽然计算、传输和存储三大IT基础设施都得到了飞速的发展,但相对于计算(数据处理)和传输而言,存储技术相对发展缓慢,这主要是由于在I/O子系统方面缺乏相应的提高,导致I/O成为存储系统的主要瓶颈。分布式存储系统的构造是非常昂贵和复杂的,如果系统的参数没有配置好,将直接影响存储性能,那成本就更高了。因此,如何优化分布式存储系统的设计,评估分布式存储系统的性能,调整分布式存储系统的性能引起存储工业界和研究机构越来越多的关注。因此,分布式存储系统性能建模技术成为一个极具挑战性和实际意义的课题。性能建模技术能指导分布式存储系统设计,优化和评估系统的性能,降低成本。分布式存储系统是应对海量数据存储,提高I/O性能,降低企业运维成本的有效方案。因此,分布式存储系统的优化设计和性能研究具有很大的现实意义和科研价值,得到了学术界和工业界的广泛关注。

1 分布式存储系统性能和建模技术

目前分布式存储系统性能和建模技术的研究主要集中在以下4个方面:数据分布策略建模技术;数据流和元数据建模技术;性能可靠性建模技术;结合负载特征的性能建模技术。

1.1 数据分布策略建模技术

根据应用类型和I/O特点,研究优化数据分布策略,增强用户空间和核空间的数据感知能力,提高数据访问效率。Yu等发现文件分布模型对聚合I/O带宽有着显著的影响,提出一种基于用户视角的数据分布策略[1];综合考虑磁盘空间,磁盘I/O速率,已存在数据对象数量等因素的智能条带化存储是潜在的发展趋势。现有的主流分布式文件系统,通常分为客户端,元数据服务器,数据存储节点。主要采用的技术有零拷贝,提前读,写回,优化通信协议,小数据的快速内存访问等。文献[2]描述了一个准确、有效的方法来对分布式存储系统性能进行建模和预测。对用户响应时间,系统吞吐量,服务器平均使用率等性能指标进行了分析和评估。优化数据访问路径往往得从分布式存储系统的底层架构出发来设计的,同时也具有应用相关性。

1.2 数据流和元数据建模技术

由于不同的应用对分布式存储系统的要求不同,分布式存储系统所支持的上层应用也呈现出各异的性能的差别。应用的I/O特征对分布式存储系统的影响较大。如文献[3]引入了分布式存储系统的队列网络模型,并对模型参数进行了评估。应用Jackson网络来预测系统配置变更时的性能变化。文献[4]提出了一个Jackson网络的瞬态模型,应用于任意系统规模和有限负载的应用场景。

元数据建模技术的目标包括:提高元数据的存储能力;优化元数据的查询效率;增强元数据的容错性和一致性等等。文献[5]提出了ParFiSys 机制,来提升分布式存储系统的性能。利用映射方法,该机制能对几种常见类型的分布式存储系统提供透明的访问。并对分组管理,并行化,资源预分配,读/写缓存策略等相关性能因子进行了研究。文献[6]对分布式存储系统中的负载均衡问题进行了研究,提出了应用于大规模I/O服务器的动态、自适应的负载均衡策略。目前,随着元数据的海量增加,如何有效的组织,存储海量元数据,及如何提高海量元数据查询响应时间,成为研究热点。

1.3 性能可靠性建模技术

性能可靠性建模技术研究的主要目标是:在系统规模增大的同时,如何保证系统软硬件正常运转提供统一的服务,如何扩充系统规模来取得更好的性能和容量。针对系统资源的工作负载需求,Anna Ha?提出一些用于提高分布式存储系统性能可靠性的策略,包括文件复本、文件迁移、程序迁移等策略[7]。扩展系统性能的可用性和可靠性研究对一些特定的关键领域尤为重要。

1.4 结合负载特征的性能建模技术

这方面的研究侧重于通过评估系统的性能,挖掘潜在的性能因素及特征,预测及指导系统的性能优化。主要的难点是:分布式存储系统结构复杂,很难根据特定的应用,选择所需的性能因素;系统的性能预测缺少必要理论支持,基本是从实验出发,通过系统的性能表现,提出一些经验法则或预测模型;如何有效的结合应用特征,建立相关的分析预测模型,迎合较为复杂的应用环境需求。针对不同的应用场景,提出若干针对分布式存储系统的性能预测模型,如基于灰色理论的单因子性能预测方案[8],基于机器学习的性能预测模型[9]和相对预测模型[10],这些模型分别从不同的应用场景来分析和预测分布式存储系统的性能,取得了较好的预测效果。

2 结束语

如何优化分布式存储系统的设计,评估分布式存储系统的性能,调整分布式存储系统的性能得到了存储工业界和研究机构越来越多的关注。分布式存储系统建模技术是一个极具挑战性和实际意义的课题。其研究成果能指导分布式存储系统设计、优化和评估,降低成本,对云计算环境下的海量数据存储设计有重要的意义。研究分布式存储系统建模技术的基本思路总结如下:首先要深入探讨分布式存储系统性能因素及分布机理;其次,结合应用特征、分布式存储系统架构及设计偏向,系统地研究不同性能因素对系统整体性能的潜在影响,挖掘出不同性能因素间内在的性能相关性及影响,建立自适应的性能模型及预测方案。

参考文献:

[1]Yu W,Oral H S, Canon R S. Empirical Analysis of a Large-Scale Hierarchical Storage System [C]//the 14th International Euro-Par Conference on Parallel Processing, LNCS 5168, 2008:130-140.

[2]Rakesh Kushwaha. Methodology for predicting performance of distributed and parallel systems[J],Performance Evaluation, 1993,72(10): 189-204.

[3]Anna Ha?. Modelling parallel access to shared resources in a distributed file system using queueing networks[J]. Journal of Systems and Software, 1986,6(1): 61-69.

[4]Ahmed M. Mohamed, Lester Lipsky, Reda Ammar. Modeling parallel and distributed systems with finite workloads[J]. Performance Evaluation, 2005,60(1):303-325.

[5]J.Carretero,F.Pérez, P. de Miguel, F. García, L. Alonso. Performance increase mechanisms for parallel and distributed file systems[J]. Parallel Computing, 1997,23(4):525-542.

[6]Bin Dong, Xiuqiao Li, Qimeng Wu, Limin Xiao, Li Ruan. A dynamic and adaptive load balancing strategy for parallel file system with large-scale I/O servers[J]. Journal of Parallel and Distributed Computing, 2012,72(10): 1254-1268

[7]Anna Ha?. Performance-reliability issues in distributed file systems[J]. Journal of Systems and Software,1986,6(3): 219-224.

[8]Tiezhu Zhao, Verdi March, Shoubin Dong, Simon See. Performance Evaluation of Parallel File System Based on Lustre and Grey Theory[C]. The 9th International Conference on Grid and Cloud Computing (GCC2010), 2010,pp.118-123.

[9]赵铁柱,董守斌,Verdi March, Simon See.基于机器学习的并行文件系统性能预测[J].计算机研究与发展,2011,7,48(7):1202-1215.

[10]赵铁柱,董守斌,Verdi March, Simon See. 面向并行文件系统的性能评估及相对预测模型[J].软件学报,2011,9,22(9):2206-2221.

作者简介:赵铁柱(1983-),男,湖南娄底人,博士,助理研究员,主要研究方向:分布式存储技术、云计算等。

作者单位:东莞理工学院 工程技术研究院,广东东莞 523808

基金项目:广东省自然科学基金资助项目(S2012040007746);东莞理工学院博士科研启动基金项目(ZJ130604)。

上一篇:视频会议系统关键技术的应用 下一篇:数控加工工时消耗分析及数据采集方法研究