跳到内容

Altair Grid Engine™-构建现代HPC调度器

在高性能计算(HPC)中工作的任何人bob官网 bob体育下载都可能在其职业生涯的某些时候跨过Altair网发动机。自1993年以来,Altair网格引擎一直存在各种形式。调度程序在2000年夏季开始使用Sun Microsystems的网格软件,以及随后的开源该软件的决定。

该平台后来被称为太阳电网引擎(SGE),到2008年,该平台的安装量估计达到8000台,超过了更成熟的竞争对手,成为行业中杰出的工作负载管理器之一。

企业级HPC

从21世纪初开始,高性能计算的市场需求开始发生变化。高性能工作负载从其科学根源扩展到各种企业应用程序。bob电竞官方在生命科学、制造和半导体设计等行业,客户在硬件、软件和人员上投资了数千万美元。虽然开源软件模型在历史上为客户提供了良好的服务,但高性能计算对运营越来越重要。对于企业客户来说,志愿者开发人员和尽力的社区支持已经不够了。客户意识到,开源努力经常将开发、集成、测试和支持成本的负担转移给客户,而获得的经济回报很少甚至没有。客户需要可靠的代码管理、商业级支持和新特性来跟上快速发展的企业需求。

Univa网格引擎出生

2010年,甲骨文收购太阳微系统公司(Sun Microsystems)时,接手的是一项广受欢迎但不盈利的软件资产,而在这个市场,甲骨文几乎没有什么经验。在Oracle决定将Grid Engine恢复到封闭源代码模型之后的混乱和随之而来的不可避免的软件分叉中,Univa Grid Engine应运而生。

Univa的创始人继承了高性能计算的传统,认识到了Grid Engine的价值。Univa迅速采取行动,为Oracle腾出的市场提供商业支持,并投资于自己的Grid Engine版本,在2011年雇佣了核心的德国Grid Engine开发团队。两年后,在几次里程碑式的发布之后,Univa从Oracle手中收购了剩余的Grid Engine资产。这些举动巩固了Univa作为Grid Engine软件和支持的唯一商业供应商的地位。

从头开始重建

也许在Univa Grid Engine上所做的最重要的工作是底层工作,包括实现一个新的多线程中央控制器(qmaster),新的调度和共享策略,以及解决数百个在开源项目中一直存在的关键bug和递归特性消除(rfe)。虽然并不光鲜亮丽,而且用户通常看不到,但支持和重新构建网格引擎基础的艰苦工作对于构建现代调度器是至关重要的。

随着Univa Grid Engine的质量、稳定性和可扩展性的快速提高,商业客户用他们的钱包投票,Univa的客户基础也在增长。除了架构上的改进,Univa还实现了重要的新功能。新特性包括作业类、Windows支持、改善图形处理单元(GPU)利用率的增强以及高级容器支持。通过这些特性、新的共享策略和更新的消息传递通道接口(Messaging Passage Interface, MPI)集成,Univa Grid Engine很快就与商业竞争对手的特性集不相上下,在很多情况下甚至超过了它们。

不是你父亲的网格引擎

从远处查看Univa电网发动机时,将其与最后十几岁的网格引擎进行比较令人诱人的,现在近十岁。Univa Grid Engine毕竟保持了完全落后的兼容性,但Univa的工程团队在这种比较下刷毛。

我相信将开源电网引擎与现代Univa网格引擎进行比较就像将一个20岁的轿车与现代,涡轮充电,高性能的豪华汽车相比。两者都会让你从一个到B,但只有一个人的风格,舒适和现代的安全,否则解决方案会更好的问题。

在过去的几年里,Univa Grid Engine已经有了数百项重大的改进,其中重要的子系统被完全重写或从头开始开发。改善的主要范畴包括:

  • 可扩展性和吞吐量
  • 高级集装箱支持(Docker和奇点)
  • 新的资源调度和共享策略
  • 可靠性和可诊断性增强
  • 核心绑定、关联调度和NUMA支持
  • 先进的GPU调度
  • 现代化的安排Apis.

随着云的使用在HPC中增加,Univa在优化云的Univa网格引擎中投入大量投资。新功能包括云友好的管理功能,无缝的可扩展性和优异的主要公共云云级工作负载的优异可靠性和性能。

Univa Navops Launch是Univa Grid Engine的配套产品,它帮助企业将计算密集型HPC工作负载迁移到云中。Navops Launch具有应用、资源和预算意识,能够实时洞察工作负载和支出,完全可见HPC云资源。

证据是在基准中

2015年,经过四年的改进Univa电网发动机调度程序,Univa进行了一个基准,将最新的开源网格引擎释放(6.2U5)与Univa Grid Engine 8.5.0进行比较。在一系列发布的测试中,Univa网格引擎在复杂的工作负载调度要求中展示了2x和9.5倍之间的性能增益。HPC全部是关于性能和这些吞吐量优势,加上可扩展性改进,直接转化为提高生产率,更好地利用资产,以及较低的运营成本上的内部内部和云。

2019年,Univa与西部数字和AWS合作,在迄今为止最大的商业云部署之一中运行生产规模的多物理模拟。一个Univa Grid Engine集群部署在6个AWS可用分区中,这些可用分区由>、40,000个云车队实例和1,000,000多个vcpu组成。以前运行20天的模拟被压缩到8小时,包括部署和扩展集群所需的时间——这是惊人的60X改进。这种可扩展性和资源使用效率远远超出了开源调度程序的可能性。

望向未来

9月20日,牵牛星收购UNIVA,推出Altair网发动机进入其演变的下一阶段。通过对GPU感知的调度,容器和云计算的高级支持,Altair网格引擎是Altair的HPC产品组合中的一个关键支柱,用于现代HPC和云工作负载。Altair将继续投资Univa的技术,以支持现有客户,同时整合Altair网格引擎与Altair的现有HPC和Data Analytics解决方案。HPC是数字转型的关键因素,在计算科学和数据分析的所有领域发挥着重要作用。这些举措将扩大Altair网格引擎的市场机会,并巩固Altair在工作负载管理中的领导和HPC的云支持。