优化人工智能和机器学习的GPU工作负载
在今天的数据中心和云计算中,gpu已经成为加速高性能计算(HPC)的主要部件,特别是在人工智能(AI)和机器学习(ML)工作负载方面。bob官网 bob体育下载为了实现更快、更高效的计算和优化的输入/输出(I/O),并最终实现更好的时间到结果和ROI,需要gpu支持的工具,包括工作负载管理和作业调度软件。
在NVIDIA DGX Systems担任AI领导
在人工智能数据中心,管理分布式GPU支持的ML框架是一个核心挑战。数据科学家承担着从数据准备、模型培训到模型验证和推理的各种工作。工作负载需要快速运行,高效地使用资源,并在部署时考虑CPU和GPU体系结构、内存、缓存、总线拓扑以及互连和网络交换机拓扑等因素。
NVIDIA DGX™系统是专门为深度学习应用程序设计的。bob电竞官方这个系列的产品包括英伟达帕特A100和NVIDIA DGX站™A100系统。各行各业的组织都在使用NVIDIA DGX来推动他们的人工智能计划,并改变世界。事实上,美国前十的政府机构中有九家,美国前十的国立大学中有八家,美国前十的医院中有七家,全球前十的汽车制造商中有七家都使用NVIDIA DGX技术。
基于NVIDIA GPU架构的工作负载管理
Altair工作负载管理和作业调度工具,包括牵牛星®PBS专业®和Altair®网格引擎®,针对GPU环境(如NVIDIA DGX系统)的性能进行了优化。PBS Professional version 2021.1.1不仅支持在多GPU服务器和多节点GPU服务器上调度工作负载,以提高吞吐量和并行处理,还支持在工作负载未完全饱和GPU计算能力时的多实例GPU (MIG)。MIG允许gpu安全地划分为多达七个独立的CUDA®应用实例。bob电竞官方
PBS Professional将GPU和GPU实例视为可消耗资源(一流资源),并允许用户以整数单位(例如,1、2、3等)请求它们。PBS Professional可以自动检测NVIDIA DGX系统上的GPU/GPU实例,并将其隔离以进行作业。PBS Professional会平等地调度和分配每个GPU实例,而不考虑实例大小。它还使用Singularity和Docker为容器作业提供相同级别的GPU调度和隔离。
Altair Grid Engine为gpu敏感的应用程序和容器的调度提供了丰富的支持。bob电竞官方它为从单个DGX系统到数千个gpu集群的NVIDIA DGX环境提供高效的工作负载和资源管理功能。Altair Grid Engine 8.6.0及以上版本集成了NVIDIA数据中心GPU管理器,提供GPU资源的详细信息。
通过这种集成,Altair Grid Engine可以全面了解每台主机上的GPU,包括GPU类型和版本;可用内存;工作温度;以及套接字、核心和线程关联。此信息有助于Altair网格引擎更高效地调度支持GPU的应用程序,以优化性能和资源使用。bob电竞官方
Altair Grid Engine内置了对Docker和NVIDIA Container Toolkit的支持,允许用户管理容器化的GPU工作负载,就像管理任何网格引擎作业一样。
通过使用Altair工作负载管理解决方案来管理NVIDIA DGX系统上的GPU工作负载,组织可以提高性能,更有效地使用资源,并提高整体生产力。PBS Professional和Altair Grid Engine都有效地支持NVIDIA gpu与客户在HPC和EDA。PBS Professional长期以来一直是计算密集型行业(包括制造和汽车设计)的首选解决方案,Altair Grid Engine为许多医疗保健和生命科学提供商提供支持gpu和分布式计算的支持。
AI的gpu支持高性能计算的未来
保持AI浪潮领先的竞赛正在进行中。NVIDIA从全球各地经现场验证的人工智能部署中提炼出知识,并构建了NVIDIA DGX系统,该系统具有可复制、经验证的设计,每个企业都可以从中受益。
英伟达生态系统的成熟企业级软件,包括AlTall工作负载管理工具,已被充分测试和认证,用于Nvidia DGX系统,简化了AI基础设施的部署、管理和缩放。
- Chris Porter, NVIDIA高级技术营销经理