优化NVIDIA DGX系统

物联网

在这个智能、互联的世界里，牵牛星让您充分利用物联网(IoT)的力量，加速创新，释放商业价值。利用我们的动态工具集，您可以部署边缘计算集群，训练和执行机器学习模型，实现复杂的应用程序业务逻辑，执行数据转换，可视化实时数据，等等。我们为您提供构建模块，使您的数字转型快速移动，快速扩展，并随着时间的推移继续改进。

设备管理

Altair的设备管理开箱即用，帮助您克服物联网开发中的基本障碍，从可靠、安全、双向设备通信到简单、高效的设备组织和建模。Altair的设备管理提供用于连接数千台设备的优化工作流，从而创建这些设备的虚拟表示，然后将它们组织成逻辑组。在繁忙的工作中花费更少的时间 - 而是加速您的供应过程，以便您专注于为您的客户提供最佳体验。

边缘编排

边缘应用程序编排可能是一个复杂的、微妙的问题——边缘计算负载会遇到各种各样的问题，从无法通信的设备，到需要特定构建的特定目标硬件，到耗尽硬件资源的关键任务应用程序。bob电竞官方边缘编排提供了一个强大的平台用于管理这些细微差别，以便您可以在接近设备的地方构建自动化和执行逻辑，而无需往返于云。对您来说，这意味着减少延迟，节省数据传输成本，并在您最需要的地方提供新的、强大的智能。

数据存储

设备会产生大量的数据——10000台设备每分钟报告几次就可以每个月产生tb级的数据。Altair的数据存储解决方案为您提供一组工具，用于从设备上有效，适当地管理数据，以便您可以从它们中提取正确的洞察力和操作。将变换数据存储在实时访问，存储原始数据以进行长期参考，并使用我们的分析服务直观地查询它们，以便无法解除趋势或火车机床学习模型。Altair的数据存储解决方案确保您可以在合适的时间获得适量的信息。

流处理

来自机器的原始数据可能出人意料地毫无帮助。有时难以理解，在需要的地方很少出现，而且来自一个网络的数据几乎从来不会与另一个网络的数据格式相同。此外，也许最糟糕的是，数据并不能给出任何关于其含义的结论。Altair是流处理解决方案帮助您使用拖放界面和您想要的少量代码来解决这些问题。通过流处理，您可以转换和加入数据流，添加计算列，执行机器学习模型，发送警报，转换值，并连接到几十个不同的源或目的地所有上的现场流数据。为了从资产数据中获得价值，您几乎肯定需要进行一些数据按摩 - Altair的流处理解决方案可以帮助您轻松且可伸缩。

数据准备和机器学习

牵牛星的数据准备和机器学习工具使您能够在无代码、安全的环境中从实时和历史数据源提取可操作的信息。我们的可扩展平台支持自动数据发现、数据转换、机器学习和可视化。使用这些工具来优化运营，并对业务中可能出现的所有突发事件做出准确的反应。准确预测部件寿命、更换要求、能源使用、维护、利用率和其他直接影响质量、销售、客户接受度和效率的因素。精简操作或提高产品性能从来没有像现在这样容易。

实时仪表板

真正的实时可视化是难以通过的。许多仪表板工具声明了实时功能，但它们失败了在测试时失败：只有一个组件将是实时的，或每分钟更新，或者查询可以按需运行但未自动更新。Altair的实时仪表板是不同的。我们提供下降，自动更新图表，配有异常检测和用户反馈功能。我们建立了真正的实时和嵌入了距离的实时，这意味着您可以看到您想要的数据，您想要的位置，并且足够快地行动。Altair是实时指示板是最强大，最简单的方法，让IoT数据完全在所需的位置。

嵌入式开发环境

IOT的嵌入式开发有许多唯一的考虑因素。外围编程，独特的通信协议，电池寿命意识，超空气（OTA）更新以及艰难的安全性都是IOT嵌入式开发中的常用要求。牵牛星®®嵌入解决了这些问题——它使您能够通过仿真或在环硬件(HIL)构建和验证可靠的嵌入式系统。Embed内置支持轻松的云或设备通信、电池充电状态(SOC)和健康状态(SOH)跟踪、电池充电优化、安全OTA固件更新和加密数据传输。它帮助您快速迭代代码，提高系统效率，并减少嵌入式系统的攻击面。使用Embed，您可以确信您的嵌入式系统已经可以生产了。

特色资源

Altair SmartWorks物联网:概述

Altair®MardWorks™IOT为您提供了快速构建可扩展，安全的Web，移动和边缘应用程序所需的一切，然后快速迭代以查找产品市场合适。bob电竞官方今天尝试SmartWorks IoT，免费 - 点击这里开始试用。

产品概述视频

智能产品开发指南

事情互联网（物联网）改变了公司做生意的方式。通过引入系统和资产之间的智能互连，新产品线，重复的收入流，更高效的操作，更高的质量和更快的上市时间都在覆盖范围内。

eGuide

Redefining Connected Buildings with Altair SmartWorks IoT

用Altair SmartWorks IoT重新定义连接的建筑物

切换IQ将Web应用程序，移动应用程序，硬件，分析和边缘计算组合以创建一个类型的智能构建数据和设备管理系统。这种智能照明制造商希望开发一个新的，连接的照明和建筑管理解决方案，以帮助客户节省资金，提高舒适度，并遵守新的法规。它们使用Altair®Martworks™IoT构建完整的前端，后端和边缘计算架构。有了这个，切换的客户现在可以管理用户，板载设备，管理网关产品中的计算工作负载，开发楼宇自动化，并优化能源使用情况。今天尝试SmartWorks IoT，免费 - 点击这里开始试用。

客户见证

Build Industry-Shaking Smart Product Ecosystems with Less Risk

以较少的风险建立行业摇动智能产品生态系统

体验Altair®MardWorks™IOT如何为您提供快速构建可扩展，安全的Web，移动和边缘应用程序的一切，然后快速查找产品 - 市场合适。bob电竞官方本演示文稿由PérezBello，Altair的Smartworks IoT产品经理最初在未来播出.2021年6月，长约11分钟。今天尝试SmartWorks IoT，免费 - 点击这里开始试用。

ATC演示文稿

使用Altair网格引擎构建未来的HPC和AI集群环境

在上一篇文章中，充分利用Altair网格引擎的NVIDIA DGX系统，我们讨论了gpu对HPC和深度学习工作负载的重要性，并解释了Altair Grid Engine如何帮助用户充分利用NVIDIA DGX系统。随着用户越来越多地利用GPU、容器和云资源来实现高性能应用，对GPU工作负载的有效管理比以往任何时候都更加重要。bob电竞官方随着年度NVIDIA GPU技术大会(现在是一个在线活动)的临近，现在似乎是重新讨论这个话题的好时机。

资源管理和DGX系统

DGX用户中的常见问题是如何在多个用户或组之间共享系统。很少有组织可以为特定用户专用大规模系统，应用环境越来越复杂。幸运的是，对于HPC和深度学习的广泛学科，NVIDIA在NVIDIA GPU云（NGC）中提供了验证的容器，以简化GPU应用。bob电竞官方¹

例如，如果您正在构建图像分类的型号，则可能从A开始TensorFlow集装箱图片。此图像包含数十个软件包，包括OS，NVIDIA软件（CUDA，CUDNN，NCCL），OpenMPI和Horovod（用于并行训练），Jupyter等组件。这示例脚本使用Horovod运行多GPU模型，分配GPU对应于MPI任务的等级。²虽然这使示例保持简单，但在生产中会造成问题。例如,如果四个用户试图运行一个4路DGX-2相同主机上培训工作,第一份工作将会分配gpu 0到3和随后的三份工作都将失败,试图重新分配相同的gpu,而75%的gpu闲置着。用户可以修改脚本或调整MPI命令行来手动指定主机和GPU设备，但这是繁琐和容易出错的。在共享DGX系统时，支持gpu的资源管理器是一种更实用的解决方案。

运行GPU应用程序的更好方法bob电竞官方

GPU系统的资源管理至关重要，原因有三:

它避免使用GPU作业通过在不可用时自动排队失败。
它通过在运行时动态分配GPU来最大限度地提高资源使用和效率，提高整体生产率。
它通过考虑机器架构和工作负载的几何形状来调度工作负载的主机和GPU部分，从而实现性能最大化。这包括NUMA、CPU-GPU亲和和平衡内存通道、总线、交换机和网络接口流量的放置策略等细节。

除了这些gpu支持的调度功能外，其他策略也很有用。例如，当多个用户共享一个DGX集群时，公平共享策略可以保证不同的用户、部门或项目在一段时间内被分配到特定的GPU资源。用户经常混合运行CPU和GPU工作负载，在某些情况下，CPU任务可能会消耗资源并阻止GPU任务运行。与其让有价值的gpu闲置，不如自动抢占低优先级的CPU工作负载，以避免有价值的DGX资产闲置。

资源管理器如何优化展示位置

在DGX环境中，Altair网格引擎等资源管理器可以控制完整的群集环境。资源管理器在GPU中强制执行CGroups隔离，阻止作业彼此冲突。^3.

当DGX主机处于Workload Manager的控制时，MPI运行时通常驻留在每个集群主机（外部应用程序容器）上，并且是资源管理器感知。当提交需要GPU的并行作业时，用户指示MPI排名的总数，每个主机的等级数（GPU），并将其留给资源管理器以优化放置。

虽然资源管理器知道主机和作业，但它通常不会知道GPU。这是NVIDIA的数据中心GPU管理器（DCGM）进入。与DCGM集成的资源管理器具有对CPU-GPU亲和力，GPU存储器，温度，错误率等的详细信息具有实时可见性。通过利用DCGM的信息，调度程序可以提高吞吐量，效率和可靠性。资源管理器中的报告和监视解决方案可以聚合和报告这些和其他与GPU相关的指标。

Univa网格引擎提高了NVIDIA DGX系统的效率 — *图1 - Altair* *网格引擎提高了NVIDIA DGX系统的性能和效率*

面向面向未来的GPU基础设施

除了支持gpu之外，资源管理器还需要在DGX硬件上无缝地运行来自NGC和其他注册中心的容器。资源管理器应该支持多个容器管理器，包括Docker和Singularity，并透明地将容器与其他支持异构应用程序和多机器架构的工作负载混合在一起。bob电竞官方虽然DGX系统提供了足够的能力来运行本地的HPC和深度学习工作负载，但一些用户会希望利用他们喜欢的云提供商提供的gpu和其他资源。

牵牛星网格引擎是一个领先的分布式资源管理器，可优化工作负载和资源。Altair网格引擎与NVIDIA DGX系统集成，提供高级集装箱管理，复杂的云爆发和云自动化功能Navops发射并与NGC图像无缝工作。Altair最近宣布支持基于ARM的系统的NVIDIA GPU。

/您可以了解有关Altair网格引擎的更多信息这里或者将DGX系统扩展为混合云GPU这里。

参考文献

请参阅NVIDIA深度学习框架，作为一个例子 -https://docs.nvidia.com/deeplearning/frameworks/support-matrix/index.html
rank是指在并行MPI作业中分配给每个进程的数字指示符。Horovod提供一个hvd.rank()方法来检索分布式MPI作业中任务的总排名，并提供一个hvd.local_rank()方法来检索每个服务器上从“0”开始的本地排名。这里提供了一个解释https://horovod.readthedocs.io/en/latest/tensorflow.html.
Cgroups(控制组)是Linux内核的一个特性，它限制、统计和隔离资源使用，控制哪些进程可以访问哪些设备。

物联网