跳到内容

优化人工智能和机器学习的GPU工作负载

通过牵牛星技术合作伙伴|英伟达|

在今天的数据中心和云计算中,gpu已经成为加速高性能计算(HPC)的主要部件,特别是在人工智能(AI)和机器学习(ML)工作负载方面。bob官网 bob体育下载为了实现更快、更高效的计算和优化的输入/输出(I/O),并最终实现更好的时间到结果和ROI,需要gpu支持的工具,包括工作负载管理和作业调度软件。

在NVIDIA DGX Systems担任AI领导

在人工智能数据中心,管理分布式gpu驱动的ML框架是一个核心挑战。数据科学家承担着从数据准备和模型训练到模型验证和推理的各种工作。需要考虑CPU和GPU架构、内存、缓存、总线拓扑、互连和网络交换机拓扑等因素,快速运行、高效使用资源。

图片由NVIDIA提供

NVIDIA DGX™系统是专门为深度学习应用程序设计的。bob电竞官方这个系列的产品包括英伟达帕特A100和英伟达帕特站™A100系统。各行各业的组织都在使用NVIDIA DGX来推动他们的人工智能计划,并改变世界。事实上,美国前十的政府机构中有九家,美国前十的国立大学中有八家,美国前十的医院中有七家,全球前十的汽车制造商中有七家都使用NVIDIA DGX技术。

基于NVIDIA GPU架构的工作负载管理

Altair工作负载管理和作业调度工具,包括牵牛星®PBS专业®牵牛星®®网格引擎,针对GPU环境(如NVIDIA DGX系统)的性能进行了优化。PBS Professional version 2021.1.1不仅支持在多GPU服务器和多节点GPU服务器上调度工作负载,以提高吞吐量和并行处理,还支持在工作负载未完全饱和GPU计算能力时的多实例GPU (MIG)。MIG允许gpu安全地划分为多达七个独立的CUDA®应用实例。bob电竞官方

PBS Professional将GPU和GPU实例视为消耗性资源(一级资源),允许用户以整数单位(如1、2、3等)请求它们。PBS Professional可以自动检测NVIDIA DGX系统上的GPU /GPU实例,并隔离它们。无论实例大小如何,PBS Professional平均调度和分配每个GPU实例。它还为使用Singularity和Docker的容器作业提供了相同级别的GPU调度和隔离。

Altair Grid Engine为gpu敏感的应用程序和容器的调度提供了丰富的支持。bob电竞官方它为从单个DGX系统到数千个gpu集群的NVIDIA DGX环境提供高效的工作负载和资源管理功能。Altair Grid Engine 8.6.0及以上版本集成了NVIDIA数据中心GPU管理器,提供GPU资源的详细信息。

有了这个集成,Altair网格引擎对每个主机上的GPU有了完全的可见性,包括GPU类型和版本;可用内存;操作温度;套接字、核心和线程关联。这些信息有助于Altair Grid Engine更有效地调度支持gpu的应用程序,以优化性能和资源使用。bob电竞官方

Altair Grid Engine内置了对Docker和NVIDIA Container Toolkit的支持,允许用户管理容器化的GPU工作负载,就像管理任何网格引擎作业一样。

通过使用Altair工作负载管理解决方案来管理NVIDIA DGX系统上的GPU工作负载,组织可以提高性能,更有效地使用资源,并提高整体生产力。PBS Professional和Altair Grid Engine都有效地支持NVIDIA gpu与客户在HPC和EDA。PBS Professional长期以来一直是计算密集型行业(包括制造和汽车设计)的首选解决方案,Altair Grid Engine为许多医疗保健和生命科学提供商提供支持gpu和分布式计算的支持。

AI的gpu支持高性能计算的未来

在人工智能浪潮中保持领先地位的竞赛正在进行。英伟达从全球各地经过现场验证的人工智能部署中提炼了知识,并构建了具有可复制、经过验证的设计的英伟达DGX系统,每个企业都可以从中受益。

NVIDIA的企业级软件生态系统,包括Altair工作负载管理工具,经过全面测试和认证,可以在NVIDIA DGX系统上使用,简化了AI基础设施的部署、管理和扩展。

- Chris Porter, NVIDIA高级技术营销经理