跳到内容

与新的HPC工作负载保持步伐

牵牛星网格引擎与高性能计算的变革

分析和AI在每个行业中都被成为竞争武器。Gartner 2019年CIO调查发现,截至2019年,37%的组织在数据中心实施了AI - 2015年的增长270%,预测分析是AI增长最快的应用部门。[一世]MMC Ventures报告称,到2021年,三分之二的公司将拥有新的人工智能计划。[II]

这些新工作负载的基础架构要求与HPC引起了相似的。无论是内部部署还是在云中,都需要具有多核CPU,快速互连和高性能存储子系统的集群主机。与他们的HPC同事一样,数据科学家们担心上市时间并具有足够的计算和数据处理能力来构建高质量的预测模型。此外,HPC和数据科学应用程序都越来越多地集装箱,分布式,并且通bob电竞官方常依赖于GPU。鉴于这些相似之处和机会提高了利用峰值使用抵消,它只能巩固HPC,分析和AI环境是有意义的。

在本文中,我将讨论用于分析和AI工作负载的并行环境是如何发展的,并介绍支持它们的不同策略。我还将解释为什么Altair Grid Engine对于需要混合运行传统HPC和数据科学工作负载的用户是一个很好的选择。

分析应用中的海洋变化bob电竞官方

虽然HPC正在快速发展,但分析和数据科学工具甚至更快地发展。领先的商业工具稳步上调市场份额至开源软件。Python,R和Tensorflow等工具和框架已经看到了爆炸性的增长。根据2019年对数据科学家的调查,几乎三分之二的数据科学家使用基于Python的框架,近50%使用R语言工具。[3]

不同的并行执行环境

让事情更复杂的是,工具的数量不会很快合并。仅在Python和R生态系统中就有数百个库和工具。其中包括多个并行执行解决方案,如Dask、Horovod、IPython。并行(ipyparallel)和其他。虽然一些并行计算解决方案比其他解决方案更流行,但Python用户可以从许多潜在的解决方案中进行选择—参见a列出这里

有些人认为,分布式计算只对模型训练等计算密集型应用至关重要,但并行执行在机器学习管道的所有阶段都是必不可少的。bob电竞官方示例包括数据摄取、流、数据处理/ETL、强化学习、模型验证和模型服务。数据科学家很少使用单一的工具或框架,这进一步加剧了多样性的挑战。在最近一项对数据科学家的调查中,数据科学家平均使用多达7种不同的分析工具来完成他们的工作。[IV]

如何适应这些现代工作负载?

不幸的是,没有一个单一的解决方案支持所有这些工作负载。一些工具与Kubernetes集成,但是Kubernetes并不适合运行许多HPC工作负载。它缺乏HPC用户认为理所当然的特性,例如高吞吐量阵列作业、交互式作业、并行作业和各种其他功能。此外,Kubernetes要求工作负载被容器化并适应于Kubernetes,但大多数环境运行的是混合应用程序,包括虚拟化和非容器化的工作负载。bob电竞官方

一些开源工具提供了它们自己内置的调度和分布式计算工具,这些工具具有负载平衡、亲和、反亲和和打包等特性。虽然这种方法可能适用于某些环境,但用户应该谨慎对待特定于工具的解决方案。这种方法可能导致昂贵的竖井式基础设施、成本低效率和支持多个分布式资源管理器的需求。

HOROVOD和DASK等项目提供了更灵活和便携的并行化方法。虽然它们呈现自己的API,但它们也可以插入流行的HPC工作负载管理器,例如Altair网格引擎,在HPC和机器学习工作负载之间启用无缝资源共享。Horovod通过利用MPI - 大多数HPC用户已经熟悉的环境,可以并行执行大多数深度学习框架。同样,虽然Dask提供了本地人Dask.distributed在Python中,它还通过它的流行HPC工作负载管理器进行接口达斯 - 工作队列dask-drmaa模块。

Altair的案例网格引擎

对于运行分析和AI工作负载的HPC环境,Altair网格引擎是一个绝佳的选择。它灵活,可配置,具有丰富的并行执行环境的支持。用户通常可以使用简单的基于脚本的集成将分布式应用程序调整到Altair网格引bob电竞官方擎。

鉴于其开源遗产,Altair Grid Engine已经支持各种分析和机器学习工作负载。它还提供丰富的集装箱管理,GPU调度和混合云特征对现代应用很重要。bob电竞官方下面列出了与Altair网格引擎集成的更多流行的分析和分布式机器学习框架。

bob电竞官方 描述和参考URL
TensorFlow 由[Altair]发布的分布式张sorflow集成,或在Open MPI中使用Horovod
Keras 使用Horovod运行分布式Keras,并使用openmpi与Altair Grid Engine启动
PyTorch 使用Horovod运行分布式PyTorch,使用Open MPI与Altair Grid Engine启动
d Dask-jobqueue在包括Altair网格引擎的工作排队系统上部署DASK
Jupyter 用户可以在Altair网格引擎控制下启动Jupyter / Ipython笔记本电脑,或者可以使用Remote_ikernel在Jupyter Notebook中启动Altair网格引擎主机的Jupyter Kernels
IPython平行 IPython并行提供了一种PBS模式,可在控制PBS样式网格管理器中启动IPCluster控制器和发动机,包括Altair网格引擎
水蟒 Anaconda是一个完整的数据科学发行版,包括流行的Python和基于r的工具和库,它们可以在Altair Grid Engine环境中工作,包括NumPy、SciPy、Dask等
Python Python作业可以在Altair Grid Engine的控制下启动,并且Python支持多个与Altair Grid Engine集成的并行框架
R凹口 开源R CRAN任务视图提供多个分布式和并行计算解决方案,它与Altair网格引擎一起使用,包括RMPI,QSub,Batchjobs,Flowr,ClusterMQ等
阿帕奇火花 虽然Spark在Hadoop环境中使用YARN资源管理器更方便,但Spark独立脚本可以用于启动单个Spark集群作为用户作业
马铃薯 Mathworks通过并行计算工具箱插件为带有网格引擎的MATLAB并行服务器提供了商业支持的Altair网格引擎集成

[一世]高德纳研究- 2019 CIO调查:CIO已经意识到人工智能的重要性https://www.gartner.com/en/documents/3897266/2019-cio-survey-cios-have-awoken-to-the-importance-of-ai

[II]MMC Ventures - AI - 差异的状态 -https://mmc.vc/reports/state-of-ai-2019-divergence.

[3]kdnuggets 2019年度数据科学调查 -https://www.kdnuggets.com/2019/05/poll-top-data-science-machine-learning-platforms.html.

[IV]kdnuggets python在r:top软件用于分析,数据科学,机器学习 -https://www.kdnuggets.com/2018/05/poll-tools-analytics-data-science-machine-learning-results.html.