云性能管理方面的最佳实践

时间:2022-10-06 07:34:02

云性能管理方面的最佳实践

你把自己的核心IT系统搬迁到私有或公共网络上后,要做的工作还没有结束?现在有一堆不同的技术问题要处理:管理、确保投入给贵企业带来回报以及带来期望的效率和投资回报。

IDC公司的分析师Mary TohnstonTurner表示,获得贵企业不惜花费成本的性能“是公共面临的一大难题”。她表示,最近针对250家用户公司的一项调查发现,服务级别协议(SLA)的性能保障就重要性而言排在第二位,仅次于应用程序本身的具体要求。

她说:“企业都非常关注性能。现在大家之所以对私有有这么大的兴趣,原因之一就是IT主管们负责给用户带来良好的性能”;他们并非总是准备好把这个巨大的责任交给第三方提供商。

她补充说,这不仅仅是的问题,而是以后搬迁到环境的组合式应用程序具有的复杂性所引起的问题。

Turner说:“这是个巨大挑战。用户们需要公司购买针对组合式应用程序和虚拟化环境开发的应用程序性能管理产品。现在市场上出现了一个完整的产品类别。”

Turner表示,其想法是当应用程序跨网络或跨环境移动时,能够独自监控应用程序的性能,然后当应用程序到最终用户跟前时,能够测量其性能,无论应用程序在防火墙的里面还是外面。

IGN,com是世界上最大的视频游戏评论网站之一;对于该公司的工程副总裁David Ting来说,监控本公司的性能至关重要,因为它的2540万用户能不能连接到该网站广告支持的在线内容,关系到公司存亡。

他说:“对于我们来说,性能意味着收入,因为页面浏览量是关键。我们开展的是广告支持的业务,所以每一点页面浏览量都很要紧”,并且帮助公司创造收入。“这些是我们非常认真关注的方面。”

为了确保取得成功,媒体巨头新闻集团旗下的IGN娱乐公司使用了总部设在旧金山的New Relic开发的性能监控工具,那样IGN就可以不断地监控其网站在环境中的性能。Ting说:“我们非常依赖这个工具。对于我们来说,关键是我们IGN网站的响应时间和每秒处理的事务。”

环境扩大后的性能跟踪

IGN,com使用New Relic的工具差不多已有18个月。最初,它把非生产型的开发及其他应用程序迁移到环境上,看看它们是如何运行的。Ting表示,现在,把一些新项目也放到了服务器上,包括一个社交媒体项目,那样公司就可以根据需要,增加和扩展应用程序。另外,网络的灾难恢复基础设施也定于放到环境上。

Ting聊到公司的IT系统时说:“最终可能会全部放到环境上。性能、稳定性无疑关系到将来我们会不会这么做,我们正关注这方面。”

他表示,New Relic的监控工具提供了IGN使用其他工具所无法获得的度量标准。原来用的工具“监控物理机的性能没问题,但要是工程团队不开展大量的工作,它们根本无法监控应用程序堆栈的性能。”

他表示,IT员工借助New Relic管理工具,可以启动更多的基于的服务器,停运性能欠佳的应用程序实例,然后根据需要添加新的实例,满足用户在响应时间方面的要求。如果采用以前的工具,Ting领导的团队只能了解正常运行时间,无法了解响应时间。

Ting解释:“New Relic让我们可以非常清楚地了解响应时间”,因而IT员工可以针对服务器采取相应的措施,即便服务器在运行时也可以这么做。举例说,“我们发现了一台缓存服务器的性能比集群中其他服务器低得多。我们进一步深入调查后发现,其中一个内存模块有问题。倘若是在以往的其它环境里,这台服务器将在集群中一直运行,直到它宕机为止。”

Ting表示,如今在使用亚马逊的EC2,涉足环境。

借助New Relic工具,可以密切关注其三层架构的各个部分:从前端部分到数据库,再到应用编程接口(API)层。管理工具有助于确保用户的响应时间处于最佳状态、不会急剧增加。

Ting说:“我们可以查看什么在环境上运行”,只需使用插件来收集数据,并将所有的分析结果发回到New Relic工具。他补充说:“这些工具提供了内容非常详细的报告,告诉你整组服务器的运行状况如何。”

Ting说:“数据量很大、数据精准度很高。这时候,我们可以开始关注度量标准,能够据此作出明智的业务决定。”

除了将IT基础设施搬到环境外,还一直在研究要不要由环境来托管其100多个网站中的大部分网站,从而提高性能、延长正常运行时间。旗下的网站主要包括:、Askmen,COrn??和。

Ting表示,到目前为止,试点效果看来一直不错。他强调:“我们已经把基础设施的一些部分搬到了环境上。眼下处于试验阶段,我们在关注性能。”

使用各种工具

一年前,面向专业体育运动和大学体育运动爱好者的在线新闻发行商Bleacher Repot把核心基础设施搬迁到环境上后,也很快发现了性能监控的重要性。

Sam Parnell是总部设在旧金山的这家公司的技术副总裁;他表示,他公司在竭力为2000万独立IP访问者和每个月5亿次的页面浏览量确保扩展性时,担心潜在的性能问题,包括有可能出现延迟问题。为了防止瓶颈,他购买了一堆工具,为广告支持的网站监控和管理新的环境。

Parnell说:“没有哪一个工具能够为我们提供全部的功能。我们在不同的层面使用诸多工具,因而相当于拥有一个完整的监控套件。到目前为止,还没有出现过延迟问题,我们还用这些工具来优化系统的各个部分。”

他表示,该公司的工具箱里面包括Scout,这个服务器端工具让IT员工可以看到主数据库和从属数据库上的负载情况,还能看到服务器上的处理器占用率和内存使用情况。使用在服务器上运行的软件来进行监控,软件可以返回警报和状态数据。

另外还使用了Nagios Enterprises的监控工具和Monit的开源工具。

Parnell说:“这些工具在许多方面肯定存在着重叠,但它们都有各自擅长的本领,这是为什么我们结合使用它们。”

Bleacher Report还使用Pingdom的侦测工具,确保其各个网站正常运行,在环境下运作良好。

据Parnell声称,每一次监控情况下,100%的正常运行时间和快速的页面响应至关重要。“要是人们无法迅速访问网站、看到广告,我们就要蒙受损失。”

该公司也使用New Relic的工具来监控应用程序的性能,那样IT员工就 能了解情况,知道哪些页面打开速度很快或很慢、内存使用情况和处理器占用率。实时监控

Parnell表示,监控数据实时馈送到员工不断关注的屏幕上。

他强调,关键在于用诸多产品来进行监控,那样你就能尽快获得尽可能多的信息;万一出现了问题,就能及时解决掉。他说:“我一般更宁愿信息多些,而不是信息不够。New Relic非常擅长通过仪表板来呈现重要信息,那样你没必要梳理众多数据。你想快速看一下出现的情况时,这大有帮助。”

为了实时监控性能,Parnell的团队使用了几台大尺寸显示器,不断地滚动显示不同的报表,那样团队成员就可以成天监控这些报表。Parnell解释:“我们不是每天都成天监控所有这些东西,而是监控看起来不寻常的东西。我们果真需要深入研究时,所有这些工具的确为我们提供了深层数据。”

监控显示器屏幕的主要是一队工程师,部署新功能时或者负载高峰期间,更是密切监控。

Parnell表示,要牢记的另一个要点是,云环境和云监控仍处于起步阶段。他表示,IT部门要灵活些,既要物色和使用云监控工具,又要寻找效果更好的新工具。

Parnell说:“我们只是近五六个月才使用Scout,现在它的效果确实很好;但五个月后,其他工具可能有更好的效果。你需要紧扣市场脉搏,那样才能时刻关注新工具。新公司一直在不断涌现出来。”

他表示,要牢记的另一个方面是,你必须不断监控云提供商提供的服务器,那样才能确保自己总是拥有性能最佳的服务器。

Parnell表示,这是使用云的最大好处之一。“借助云,你完全可以丢弃一台运行缓慢的服务器,通过控制面板获得另一台较快的服务器。”

公司内部也使用监控工具,以便改进为Bleacher Report读者开发新的网站功能特性这项工作。

Parnell说:“如果工程师在部署一项新功能,我希望他们关注性能,确保新功能没有在其他方面给性能带来不利影响。我们在继续调整和完善系统里面的各个部分,确保尽可能快速地运行。如果传出重大体育新闻,我们的流量会大幅增长。一切都需要灵活扩展,我们需要能够应对这种要求。”

了解获得的性能和监控的对象

弗雷斯特研究公司的分析师IamesStaten表示,为了得到贵公司真正需要的性能,就得向云提供商明确交待自己的具体要求。

他说:“很重要的头一个问题就是确保透明度,也就是说‘提供商提供给你的性能到底是怎样的?”’。这包括问清楚对方允许你直接进行哪种层面的监控、对方会发送哪些日志给你,以便了解发生的情况。

他说:“要是对方没有提供,你要主动索取。”

Staten表示,搞好与云提供商之间的关系,一个最主要的方面是你要有合理的期望。他强调,你想要进行的任何性能监控是你的责任,而不是提供商的责任。

Staten表示,如果你不打算自己进行这种监控,可以请好多公司来为你做这项工作,包括HyperStratus、KeynoteSystems、惠普、IBM、埃森哲及其他公司。

他说:“很多人以为服务级别协议(SLA)涵盖了性能监控这个内容,其实不涵盖。SLA涵盖了可用性,但仅此而已。”

他补充说,与此同时,贵公司在云网络上运行的应用程序和服务并非全部都是关键任务型的,所以你可能没必要监控云环境上每个应用程序和服务的性能。他说:“你一定要弄清楚哪些是关键应用程序。”

离端到端云管理仍有距离

IDC公司的Turner表示,最后要考虑的一方面是,云性能监控市场仍然很不成熟。

许多提供商“会从路线图的角度来跟你谈论,但是说到整套的工具包,还是少之又少。”她说:“今年仍将是主要致力于配置方面实现自动化,这有望带来真正的端到端云监控。我认为,到明年我们会看到更成熟更先进的工具。”

Turner表示,随着更多的公司开始转向云中的生产型环境,对监控工具的需求会变得更突出。她预测:“我认为这会是许多企业在今年重点投入的一个方面;由于需要成熟的工具,可能再过一两年才会出现这种工具。”

Staten表示,当然,对所有监控要求来说,存在一个两难境地。他表示,等到你花钱购买监控工具、有助于确保获得合同规定的性能,你可能也削弱了当初让贵公司走向云环境的成本节省这个好处。

Staten说:“要是你花了很多钱来处理延迟问题,那你还要不要进入到云环境?”

上一篇:简易叠加双子星 下一篇:不仅多能还智能