跳到内容

云时代的网格引擎

在Grid Engine用户中,对云计算有很高的兴趣。在最近由[Altair]赞助的InsideHPC调查中,92%的用户表示他们“对云开放或已经在使用云”,64%的用户描述云“已被证明有价值或高潜力”。1.这些数据得到了Hyperion公司2019年12月研究报告的支持,该报告显示,云计算支出从2018年的略低于25亿美元增长到2019年的40亿美元,增幅达60%。2.

云时代的网格引擎

内部部署的网格引擎集群将继续存在,但到2023年,HPC云支出预计将再次增加近一倍,达到74亿美元。在这种背景下,我认为讨论我们对网格引擎所做的一些增强将非常有用,以确保它仍然是企业将工作负载转移到云上的最佳选择。

  1. 敏捷调度有助于减少云支出 -随着我们不断增强网格引擎,性能一直是一个主要的关注领域。已发布的基准测试表明,Altair网格引擎调度工作负载的平均速度是开源网格引擎的两倍,并且为特定的调度问题提供了近10倍的吞吐量。更快的调度不会使所有的工作负载都受益,但对于其他工作负载来说,它可能是至关重要的—特别是在具有大量短期运行作业的大型集群上,如生命科学、金融服务和工程模拟中常见的那些。即使吞吐量的微小改进也可以产生巨大的节约。例如,吞吐量提高10%可能会将组织每月的云账单从10万美元/月减少到9万美元/月,从而在年化基础上实现显著的节约。
  1. 云扩展有助于更快地完成工作负载组织越来越多地转向云,为非常大的工作负载,因此不仅支持大型集群,而且很快就会迅速缩放,以便在网上来时立即使用云实例。Altair Grid Engine提供各种可扩展性改进,包括快速批量添加和删除执行主机。与西方数字和亚马逊网络服务合作,[Altair]最近展示了这种极端可扩展性,部署了由40,000多个实例组成的百万+ VCPU Altair网发引擎集群 - 与世界上最大的超级计算机相当的规模。Altair Grid Engine集群在一小时32分钟内增长超过一百万VCPU,并持续六个小时,完成了由250万个任务组成的模拟,以前在云中八小时的八个小时内的本地基础设施需要20天。云缩放和吞吐量携手共进。如果您可以保留所有群集节点忙,则只能在此规模上部署群集是实用的。Altair Grid Engine每秒可以发出高达〜3,000个任务,3.并且能够让所有核心99%的时间都处于繁忙状态。你可以在文章中阅读更多关于这个项目的信息任务是可能的:关于建立一个百万核心集群的提示.
  1. 不间断的集群重新配置对于部署在云上的集群,计时器总是在运行。每次需要更改集群参数时都暂停所有工作是不实际的。Altair网格引擎支持动态重新配置,避免了在进行配置更改时重新启动调度程序和空闲实例的需要。另外,从8.6.3版开始,Altair网格引擎支持针对执行主机和项目的批量操作,允许用户在单个操作中动态更改多个主机上的设置,以提高效率。3.不间断的集群重新配置和批量更改使管理驻留在云上的集群变得更容易,减少了停机时间,从而降低了云中的运营成本。
  1. 高级容器支持-将复杂的软件环境部署到云端时,可以快速可靠地配置软件环境至关重要。HPC用户有许多选项,包括部署通用云实例,并使用配置后脚本(慢速和繁琐),将应用程序功能加载到自定义机器图像(如AMIS)(更高效,但难以维护)或启动群集实例使用Docker或奇点运行时间和从容器注册表中拔出应用程序图像。容器目前是打包复杂软件环境的更好方法之一。虽然可以在开源网格引擎上运行容器化工作负载,但这可以快速变得复杂。4.最近发布的Altair网格引擎为容器化工作负载提供了透明的支持,准确地报告度量,并规避了与Docker守护进程相关的安全问题。你可以在文章中了解更多将Altair网格引擎与Docker结合使用.
  1. 高效的GPU云调度-访问最先进的GPU资源是Altair Grid Engine用户使用云资源的一个常见原因。然而,GPU云实例可能代价很高。例如,目前单个p3.16xlarge实例(8个NVIDIA Tesla V100 gpu通过NVLink连接)的按需价格是15.91美元/小时或超过11K美元/月。5.在花费这笔货币时,有效地使用实例变得至关重要。GPU感知的调度功能对于最大限度地提高效率和降低内部部署和云GPU工作负载的成本至关重要。Altair网格引擎中的GPU调度增强包括CPU-GPU核心亲和力,拓扑知识调度,NVIDIA-Docker支持以及与NVIDIA DCGM的直接集成。阅读文章使用Altair网格引擎管理GPU工作负载要了解Altair网格引擎中的特定增强功能,以有效地管理GPU工作负载。
  1. 简化云自动化的REST API–当云爆炸或部署云驻留集群时,HPC用户依靠自动化高效地执行重复任务。除了自动化云资源部署(通过Navops发射用户还需要以编程方式配置工作负载管理设置,比如主机组、队列、项目、并行环境等的定义。Altair Grid Engine包含一个全面的REST API,允许用户同时管理集群配置和工作负载。用户可以使用脚本进行REST操作卷曲或者利用Java、Node.js、Meteor或Python的语言绑定。Python用户也可以使用Altair Grid Engine PyCL (Python configuration Library)自动配置云集群,这是一个开发人员友好的前端,它包装了Altair Grid Engine qconf命令来简化集群配置。7.
  1. 多云部署和云爆发云爆发是高性能计算中越来越常见的用例。尽管努力通过标准化单一云提供商来简化管理,但多云部署几乎是不可避免的。合并、收购以及与在其他云中存储数据集的实体进行协作的需求迫使组织采用多云环境。根据Gartner的数据,80%的组织已经在与不止一家云提供商打交道。7.Navops Launch为Altair Grid Engine用户提供了一种自动化集群部署和扩展到多个云的简单方法。混合的、多云爆炸对于各种工作负载都很有用。
  1. 云支出管理-随着云支出的持续增长,云支出管理也日益受到关注。上面提到的同一项由InsideHPC赞助的调查发现,84%的HPC组织认为能够自动将支出与各个部门、项目和成本中心关联起来是有价值的,而76%的受访者没有自动的解决方案。Gartner估计,由于缺乏支出控制,到2020年80%的云用户将超过IaaS预算。这对Altair Grid Engine用户提出了明确的挑战——特别是在多云部署成为常态的情况下。Navops Launch增强了Altair Grid Engine集群,提供了跨多个云的成本中心、部门和项目的云支出的实时可见性。此外,Altair Grid Engine用户可以利用内置的Navops Launch自动化来采取积极的步骤,确保云支出是基于可配置的策略进行管理的。

参考

  1. HPC采用云技术:趋势和机遇–https://insidehpc.com/2019/11/cloud-adoption-for-hpc-trends-and-opporties//
  2. 云中的高性能计算通过一个拐点-https://www.nextplatform.com/2019/12/13/hpc-in-the-cloud-rolls-through-an-inflection-point/
  3. Altair网格引擎峰值任务调度率-https://aws.amazon.com/blogs/aws/western-digital-hdd-simulation-at-cloud-scale-2-5-million-hpc-tasks-40k-ec2-pot-instans/
  4. 参见SGE下的运行容器-https://arc.liv.ac.uk/SGE/howto/sge-container.html
  5. AWS EC2 GPU P3实例定价-https://aws.amazon.com/ec2/instance-types/p3/
  6. uge pycl在github上项目 -https://github.com/gridengine/config-api
  7. Gartner 5月24日2019 -你准备好多云和云间数据管理了吗?- - - - - -https://www.gartner.com/en/documents/3923929/are-you-ready-for-multicloud-and-intercloud-data-managem