网格引擎在云时代
在网格引擎用户中,对云计算有很高的兴趣。在最近由[Altair]赞助的Insherhpc调查中,92%的用户表示,他们“向或已经使用云开放,”和64%描述的云作为“已被证明的价值或高潜力”。1这些数字于2019年12月,来自Hyperion的研究,表现出2018年截至2018年截至2018年的云支出的大幅下降60%的巨大增加至40亿美元。2
On-premise Grid Engine clusters are here to stay, but HPC cloud spending is projected to nearly double once more to $7.4 billion by 2023. Against this backdrop, I thought it would be useful to discuss some of the enhancements we’ve made to Grid Engine to ensure that it remains the best choice for enterprises shifting workloads to the cloud.
- 敏捷调度有助于减少云开支由于我们继续增强电网引擎,性能一直是一个主要的焦点区域。已发布的基准测试表明,Altair网格引擎平均将工作负载平均为开源电网引擎的两倍,并为特定的调度问题提供近10倍的吞吐量。更快的调度不会让所有工作负载都有益,而是对于其他工作负载,它可能是至关重要的 - 特别是在具有高卷的大型群体上,例如生命科学,金融服务和工程模拟中共同的常见工作。吞吐量的少量改善甚至可以节省大量节省。例如,10%的吞吐量改善可能会将组织的月度云账单从10万美元/月的价格降至90k /月以上,以便在年化基础上进行戏剧性节省。
- 云缩放可以更快地帮助完成工作负载 -越来越多的组织将云应用于非常大的工作负载,因此不仅要支持大型集群,而且要快速扩展集群,以便云实例上线后立即可用,这一点非常重要。Altair Grid Engine提供了各种可伸缩性改进,包括快速批量添加和删除执行主机。在与西部数字和亚马逊网络服务的合作中,[Altair]最近展示了这种极端的可伸缩性,部署了100万+ vCPU的Altair网格引擎集群,其中包含超过40000个实例,其规模可与世界上最大的超级计算机相媲美。Altair Grid Engine集群在1小时32分钟内增长到超过100万个vcpu,并运行了6个小时,完成了由250万个任务组成的模拟,此前在本地基础设施上需要20天的时间,而在云中需要不到8小时。云伸缩性和吞吐量是密切相关的。只有在能够保持所有集群节点繁忙的情况下,才能在这种规模上部署集群。牵牛星网格引擎每秒可调度约3,000个任务,3.并且能够保持所有核心繁忙的99%的时间。您可以在文章中阅读有关此项目的更多信息任务是可能的:关于构建百万核心集群的提示。
- 不间断群集重新配置 -对于云部署的群集,仪表始终运行。每次需要更改群集参数时,暂停所有工作并不实用。Altair网格引擎支持动态重新配置,避免在进行配置更改时重新启动调度程序和空闲实例。此外,如8.6.3版本,Altair网格引擎支持批量操作,反对执行主机和项目,允许用户在单个操作中动态地更改多个主机上的设置以获得更高的效率。3.不间断群集重新配置和批量更改使得更容易管理云居民群集,并减少云中的降低运营成本的停机时间。
- 高级集装箱支持 -在将复杂的软件环境部署到云中时,快速、可靠地提供软件环境至关重要。HPC用户有很多选项,包括部署通用的云实例和使用供应后脚本(缓慢而乏味)、将应用程序功能加载到定制的机器映像中,比如AMIs(效率更高,但难于维护)、或者启动用Docker或Singularity运行时预加载的集群实例,并从容器注册表中取出应用程序映像。容器是目前包装复杂软件环境的较好方法之一。虽然可以在开源网格引擎上运行容器化的工作负载,但这很快就会变得复杂起来。4.最近的Altair网格引擎发布为集装箱工作负载,准确报告指标以及避免与Docker守护程序相关的安全性问题提供透明支持。您可以在文章中了解更多内容使用Altair网格引擎与Docker。
- 高效的GPU云调度 -访问最先进的GPU资源是Altair网格引擎用户挖掘云资源的常见原因。然而,GPU云实例可能是昂贵的。例如,单个P3.16xlarge实例的当前按需价格(8个NVIDIA TESLA V100 GPU通过NVLINK连接)为US 15.91 /小时或超过11K /月。5.当花费这么多钱时,有效地使用实例就变得至关重要。GPU感知的调度特性对于最大化效率和降低本地和云GPU工作负载的成本至关重要。Altair网格引擎中的GPU调度增强包括CPU-GPU核心亲和力、拓扑感知调度、NVIDIA docker支持,以及与NVIDIA DCGM的直接集成。读这篇文章使用Altair网格引擎管理GPU工作负载了解更多关于Altair Grid Engine中用于高效管理GPU工作负载的具体增强。
- 简化云自动化的REST API -当云突发或部署云居民群集时,HPC用户依赖于自动化进行高效执行重复任务。除了自动化云资源部署(通过Navops发射,自定义脚本或特定于云特定的工具,如AWS CloudFormation)用户还需要编程方法来配置Workload管理设置,例如Hostgroups,队列,项目,并行环境等定义。Altair网格引擎包括一个全面的REST API,使用户能够管理群集配置和工作负载。用户可以使用脚本恢复操作卷曲或利用Java,Node.js,Meteor或Python的语言绑定。彼此用户可以使用Altair网格引擎Pycl(Python Configuration Library)自动配置云集群的配置是一种友好的前端,它包装了Altair Grid Engine QConf命令以简化群集配置。7.
- 多云部署和云爆发 -云爆发是HPC中越来越常见的用例。尽管通过在单个云提供商上标准化来简化管理,但多云部署都是不可避免的。合并,收购和与其他云存储数据集的实体合作的需要是强制组织到多云环境。根据Gartner的说法,80%的组织已经处理了多个云提供商。7.Navops Maillive为Altair Grid Engine用户提供了一种简单的方法,可以自动化群集部署并突发到多个云。混合,多云突发对于各种工作负载有用。
- 云支出管理 -随着云支出继续增长,云支出管理是一个日益令人担忧的问题。上面提到的同样赞助的Insidehpc调查发现,虽然84%的HPC组织可以在能够自动将支出与各个部门,项目和成本中心联系起来的价值,但76%的受访者没有自动化解决方案。Gartner估计,由于缺乏支出控制,80%的云用户将通过2020年通过2020年过时。这对Altair网格引擎用户提供了明确的挑战 - 特别是作为多云部署成为常态。Navops启动Altair Grid Engine集群,为跨多云成本中心,部门和项目的云支出提供实时可见性。此外,Altair Grid Engine用户可以利用内置Navops启动自动化,以积极的步骤,确保基于可配置策略管理云支出。
参考文献
- HPC云采用:趋势和机遇 -https://insidehpc.com/2019/11/cloud-adoption-for-hpc-trends-and-opportunities/
- HPC在云中滚动拐点 -https://www.nextplatform.com/2019/12/13/hpc-in-the-cloud-rolls-through-an-inflection-point/
- Altair网格引擎峰值任务调度率 -https://aws.amazon.com/blogs/aws/western-digital-hdd-simulation-at-cloud-scale-2-5-million-hpc-tasks-40k-ec2-spot-instances/
- 查看SGE下的运行容器 -https://arc.liv.ac.uk/sge/howto/sge-container.html.
- AWS EC2 GPU P3实例定价 -https://aws.amazon.com/ec2/instance-types/p3/
- 在GitHub上的UGE PyCL项目https://github.com/gridengine/config-api.
- Gartner 5月24日TH.,2019年 - 您是否可以为Multiculoud和InterCloud数据管理准备?-https://www.gartner.com/en/documents/3923929/are-you-ready-for-multicloud-and-intercloud-data- managem.