跳到内容

无限及更高–为大规模、高吞吐量云HPC扩展了Altair网格引擎的支持

UNIVA网发动机可扩展性

用于将HPC工作负载部署到云的大型动力是通过可伸缩性提高应用程序吞吐量和性能。这在生命科学和CAE中尤其如此,工作负荷往往是云友好的,而且客户对性能具有永不满足的胃口。

2018年末,西方数字与AWS和我们在Univa(现在是Altair)的团队合作,以极端的规模展示了HPC在云中的表现。在迄今为止最大的商业部署之一中,Western Digital在AWS上运行了百万个以上的Altair网格引擎集群。它将大型多物理模拟的运行时间从20天缩短到8小时-令人震惊的60倍改进! 虽然这种规模的部署仍然相对较少,但Altair看到了对更大云工作负载的需求。拥有数千甚至数万个vCPUs的集群正在变得越来越普遍。这些大规模部署所吸取的教训正在被纳入Altair网格引擎中,从而产生重要的新产品特性。在本文中,我们讨论了Altair网格引擎8.6.17版本中最近的一些可扩展性增强。

规模经营带来独特挑战

在规模处部署和管理群集造成独特的挑战。大规模集群通常利用现货或点舰队实例经济地运营。这意味着在运行工作负载时将不断回收群集节点,要求调度程序连续重新启动已删除的作业。同样,用户不能等到群集以满量程以提交工作负载,因此工作负载管理器需要容忍快速添加大量实例的群集作为提交作业。

一些可扩展性问题最佳地解决了一些常识最佳实践。例如,使用诸如AWS S3之类的可伸缩对象存储比NFS服务更高效。同样,在运行容器的工作负载时,良好的做法是将容器直接烘烤到云机器图像中,以避免压倒性地包含数千个请求的容器注册表。其他问题需要自定义为Altair网格引擎支持的环境 - 作为示例,使用分布式缓存,以避免压倒云提供商具有极端云API请求和DNS查找。

Altair网格引擎中的新的可扩展性和吞吐量增强

除了上述挑战之外,其他更微妙的瓶颈通常会在大规模部署中显现。以下介绍了最近针对消除这些瓶颈的Altair网格引擎增强:

  • 优化缩放名称服务查找除了DNS服务之外,群集还使用NIS,LDAP或Active Directory等服务将用户名和组名称解析为其相应的OS级ID。解析补充组(可以将OS级别用户分配给其主要组ID之外的组的功能)特别昂贵。这是因为,具有补充组,相同的用户ID可以与多个组条目相关联。为了帮助避免这种性能瓶颈,Altair网格引擎避免解决不需要信息的客户端应用程序的补充组ID。bob电竞官方此外,管理员可以选择完全抑制抑制补充组ID,以实现更好的性能。当管理员知道其工作负载不需要此信息时,它们还可以在范围内禁用转发补充组ID。
  • 禁用不必要的运行时检查- 在大规模上,运行时的基本验证检查可能是管理员无法承受的奢侈品。例如,当提交作业时,Altair网格引擎将验证群体主机中存在的队列实例,并确保用户有权访问它们。在已知队列是正确的情况下,Altair网格引擎现在允许禁用此运行时检查。抑制不必要的检查进一步提高了调度吞吐量和性能。
  • 更快地调度并行工作负载–调度并行工作负载是一项昂贵的操作。这是因为Altair网格引擎将找到最符合所有请求条件的最佳资源分配。例如,当指定插槽范围时,调度器将尝试提供最可能的插槽,并且它将寻求最大限度地增加软(可选)资源请求的数量。Altair网格引擎还将寻找最早运行作业的时间窗口。在云规模上,“完美不是好的敌人”是很重要的。通常吞吐量比优化每个工作负载的布局更重要。Altair网格引擎中的新调度参数允许选择性地放宽这些设置,以显著加快并行工作负载的调度。

这些增强功能除了释放到Altair Grid Engine 8.6.17的各种其他增强功能,旨在最大限度地提高具有高作业卷的大型环境中的性能,可靠性和完整性。