任务是可能的:建立一个百万核心集群的提示-牵牛星新闻编辑室

事情互联网（物联网）

在这个智能、互联的世界里，牵牛星让您充分利用物联网(IoT)的力量，加速创新，释放商业价值。利用我们的动态工具集，您可以部署边缘计算集群，训练和执行机器学习模型，实现复杂的应用程序业务逻辑，执行数据转换，可视化实时数据，等等。我们为您提供构建模块，使您的数字转型快速移动，快速扩展，并随着时间的推移继续改进。

设备管理

开箱即用，Altair的设备管理有助于您从可靠，安全，双向设备通信到简单，高效的设备组织和建模，帮助您克服IOT开发的基本障碍。Altair的设备管理提供用于连接数千台设备的优化工作流，从而创建这些设备的虚拟表示，然后将它们组织成逻辑组。在繁忙的工作中花费更少的时间 - 而是加速您的供应过程，以便您专注于为您的客户提供最佳体验。

Edge Orchestration.

边缘应用程序编排可以是一个复杂的细微差别 - 边缘计算负载遇到从非幂化设备的功能范围，对需要特定构建的专业目标硬件，以使关键应用程序耗尽硬件资源。bob电竞官方边缘编排提供了一个强大的平台用于管理这些细微差别，以便您可以构建自动化并执行靠近设备的逻辑，而无需往返云。对于您而言，这意味着减少延迟，节省数据传输成本，以及最需要的新功能，强大的智能。

数据存储

设备会产生大量的数据——10000台设备每分钟报告几次就可以每个月产生tb级的数据。Altair的数据存储解决方案为您提供一组工具，用于从设备上有效，适当地管理数据，以便您可以从它们中提取正确的洞察力和操作。将变换数据存储在实时访问，存储原始数据以进行长期参考，并使用我们的分析服务直观地查询它们，以便无法解除趋势或火车机床学习模型。Altair的数据存储解决方案确保您可以在合适的时间获得适量的信息。

流处理

来自机器的原始数据可能出人意料地毫无帮助。有时难以理解，在需要的地方很少出现，而且来自一个网络的数据几乎从来不会与另一个网络的数据格式相同。此外，也许最糟糕的是，数据并不能给出任何关于其含义的结论。Altair是流处理解决方案帮助您使用拖放界面和您想要的少量代码来解决这些问题。通过流处理，您可以转换和加入数据流，添加计算列，执行机器学习模型，发送警报，转换值，并连接到几十个不同的源或目的地所有上的现场流数据。为了从资产数据中获得价值，您几乎肯定需要进行一些数据按摩 - Altair的流处理解决方案可以帮助您轻松且可伸缩。

数据准备和机器学习

Altair是数据准备和机器学习工具使您可以在免费的，安全的环境中从实时和历史数据源中提取可操作信息。我们的可扩展平台支持自动数据发现，数据转换，机器学习和可视化。使用这些工具优化操作，并为您业务中出现的所有突发事件开发准确的规定响应。准确预测组件寿命，更换要求，能源使用，维护，利用等因素，可直接影响质量，销售，客户验收和效率。从来没有简化操作或改善产品性能。

实时仪表板

真正的实时可视化是难以通过的。许多仪表板工具声明了实时功能，但它们失败了在测试时失败：只有一个组件将是实时的，或每分钟更新，或者查询可以按需运行但未自动更新。Altair的实时仪表板是不同的。我们提供下降，自动更新图表，配有异常检测和用户反馈功能。我们建立了真正的实时和嵌入了距离的实时，这意味着您可以看到您想要的数据，您想要的位置，并且足够快地行动。Altair是实时指示板是将物联网数据准确放置在需要的地方的最强大、最简单的方法。

嵌入式开发环境

IOT的嵌入式开发有许多唯一的考虑因素。外围编程，独特的通信协议，电池寿命意识，超空气（OTA）更新以及艰难的安全性都是IOT嵌入式开发中的常用要求。Altair®Embed®.解决了这些问题——它使您能够通过仿真或在环硬件(HIL)构建和验证可靠的嵌入式系统。Embed内置支持轻松的云或设备通信、电池充电状态(SOC)和健康状态(SOH)跟踪、电池充电优化、安全OTA固件更新和加密数据传输。它帮助您快速迭代代码，提高系统效率，并减少嵌入式系统的攻击面。使用Embed，您可以确信您的嵌入式系统已经可以生产了。

特色资源

Altair SmartWorks IoT：概述

Altair®MardWorks™IOT为您提供了快速构建可扩展，安全的Web，移动和边缘应用程序所需的一切，然后快速迭代以查找产品市场合适。bob电竞官方今天尝试SmartWorks IoT，免费 - 点击这里开始试用。

产品概述视频

智能产品开发指南

事情互联网（物联网）改变了公司做生意的方式。通过引入系统和资产之间的智能互连，新产品线，重复的收入流，更高效的操作，更高的质量和更快的上市时间都在覆盖范围内。

eGuide

Redefining Connected Buildings with Altair SmartWorks IoT

用Altair SmartWorks IoT重新定义连接的建筑物

切换IQ将Web应用程序，移动应用程序，硬件，分析和边缘计算组合以创建一个类型的智能构建数据和设备管理系统。这种智能照明制造商希望开发一个新的，连接的照明和建筑管理解决方案，以帮助客户节省资金，提高舒适度，并遵守新的法规。它们使用Altair®Martworks™IoT构建完整的前端，后端和边缘计算架构。有了这个，切换的客户现在可以管理用户，板载设备，管理网关产品中的计算工作负载，开发楼宇自动化，并优化能源使用情况。今天尝试SmartWorks IoT，免费 - 点击这里开始试用。

客户推荐书

Build Industry-Shaking Smart Product Ecosystems with Less Risk

以较少的风险建立行业摇动智能产品生态系统

体验Altair®MardWorks™IOT如何为您提供快速构建可扩展，安全的Web，移动和边缘应用程序的一切，然后快速查找产品 - 市场合适。bob电竞官方本演示文稿由PérezBello，Altair的Smartworks IoT产品经理最初在未来播出.2021年6月，长约11分钟。今天尝试SmartWorks IoT，免费 - 点击这里开始试用。

ATC演示文稿

建立一百万核心集群并不容易，但这里有一些提示，帮助让您在正确的路径上实现极端尺度HPC

当亚马逊与我们接洽，希望建立另一个100万内核的集群时，这一次是与一个实际的客户进行生产负载，我想起了理查德•布兰森(Richard Branson)的一句名言:

“如果有人为你提供了一个惊人的机会，但你不确定你可以做到，说是 - 然后学习如何在以后做！”

当然，我们说我们可以做到，但不是因为引用，但由于极端规模是我们的业务。虽然我们完全有望面对新的挑战，但我们认为集体团队包括“最聪明，最聪明”的团队，加上了一些深夜，会破解这个并展示一些辉煌的结果。我们是对的。

让我们快速查看客户视角来的解决方案，为您提供一些初步上下文。Western Digital希望继续他们的创新遗产，并希望云端确定几乎无限制的规模如何允许他们更快地解决业务问题。基本上他们想要做的是在云中的100万个核心上运行250万次验证测试，而不是在离散的内部部署集群上运行20天。20天加急下到8个小时......那些是更改的市场上市时间！团队聚集在一起计划并与AWS，[Altair]和Western Digital的成员一起执行此功能。

在这篇博客中，我解释了构建这样一个集群的挑战，以及我们的团队如何能够解决这些挑战，努力建立一个在极端规模下运行工作负载的更详细的蓝图。

因此，让我们来看看我们面临的挑战，因为我们逐步加强了对具有更多工作量的更大和更大的群集的测试。很喜欢剥落洋葱，我们确定并解决了我们对新的可扩展性水平的问题，但每次我们最终找到要解决的新瓶颈。

简而言之，构建和管理云中群集的标准方法不适用于极度尺度。DNS服务器，API性能并重新启动机制，所有正常工作都从框中工作。但是当你到达这些超级大小的集群时，事情开始突破，因为在传统方式管理的所有派系之间存在太多的活动和沟通。

为了详细说明，由于其高度动态性质，极端刻度集群与标准的内部部署集群不同。首先，这些极端级别的集群需要使用现货实例是具有成本效益的，这意味着机器来并转到现场实例。我们看到剩余的速度大约为10-25个实例每分钟，这意味着必须配置新实例，所需的作业在调度程序和新的作业中被开始，所需的新作业将在回收的实例上离开的作业。侧面注意：WDC的集装箱工作量确实是检查点的很棒，因为它使重启更有效。相比之下，身份内部群集坐在您身上，并且物理节点在执行期间从集群中脱离群集相对较少。

In the cloud, we want to load work as the cluster spins up to avoid waste (i.e., you certainly don’t want to wait for the full 1 million cores before starting work), and we were adding instances through the spot fleets API at a rate of 675 per minute. At the same time, instances were going away and 1000s of jobs per second were being submitted, which resulted in increasing the work for the scheduler exponentially. With a static cluster, the scheduler is mostly focused on job submission and completion and isn’t worrying about such a high rate of new and disappearing instances. S we needed a new mechanism for handling this infrastructure.

因此，让我们开始剥离洋葱并看看我们所面临的挑战以及我们如何改编基础设施来处理它们中的每一个。

挑战＃1：我们知道从容器注册表中获取大容器的大门将大大减慢该实例的配置，并且可能是可能压倒码头登记处。我们决定将工作负载码头图像烘烤到亚马逊机器图像（AMI）中，以便在实例启动并运行后，它们已准备好滚动

挑战＃2：vpc中使用的标准AWS DNS并没有达到这个规模所需的水平。为了解决这个问题，我们在解决方案中实现了一个自定义DNS，并使用直接ip进行反向查找，以最大化原始速度并避免DNS延迟和节流。

挑战＃3：API调用可以在规模上非常昂贵，因此我们需要更好的方法来监视群集和管理活动，因为实例出现并进行了。当新推出的实例上线时，他们将它们的Specs（实例类型，IP地址，VCPU数，内存等）注册到Redis集群的ElastiCache中。然后，Navops启动然后使用此数据来查找和管理实例，它比制作AWS API调用更高效和可扩展，以检测新实例。

挑战＃4：与挑战＃3有关，整体解决方案需要新的高性能监控和管理基础架构，用于处理实例添加和磨损，作业重新启动和群集性能。这就是我们在Navops发布的一部分提供一些新的基础架构的地方。我们使用Elasticache，Grafana，ProMetheus，甚至建造了我们自己的高性能分布式RPC解决方案，我们称幻想曲（参见下面的图表，概述了各种组件及其角色）。

挑战＃5:我们需要一种机制来跨40000个实例快速读取大量数据。在这次运行中，我们使用Amazon Simple Storage Service (Amazon S3)作为存储后端。要在如此大规模的情况下支持如此快的数据访问速度，只需要很少的调优工作，因为S3带宽扩展得很好，最高可达7500 PUT/s。

牵牛星的极端尺度建筑

以下是读者可能会发现有趣的运行的一些数据和统计数据，这可能有助于填写一些空白：

我们在不到8小时内完成了250万个任务。
这些工作覆盖了美国东部(北维吉尼亚)地区的所有六个可用区。该集群在1小时32分钟内增长到100万个vcpu，并以满负荷运行了6个小时。
当没有任务需要调度或运行时，Altair Navops Launch开始关闭实例，并在大约1小时内完成整个集群的关闭。
Altair网格引擎能够以超过99％的时间内容保持工作的实例。
运行使用C3，C4，M4，R3，R4和M5实例的组合。

Navops启动控制台显示实例数量，内核数量，实例类型，利用率和作业细节:

令人印象深刻的群集利用核心：

这个项目的成功最让我印象深刻的是，它表明公司可以完全重新考虑如何管理HPC工作负载。访问本质上无限的计算能力决定性地改变了竞争格局，并可以帮助组织更快地向市场交付更高质量的产品。这难道不是云的美丽之处吗?在云计算中，在1M的核心集群上8小时内完成250万个任务的成本与在100K的集群上花费80个小时的成本是一样的。

在这个项目上有更多背景，您可以享受阅读杰夫Barr的博客帖子在云规模的西方数字硬盘模拟文章由Bala Thekkedath在极端规模HPC：西方的数字公司如何在AWS上利用几乎无限的HPC能力 - 在他们寻求加速创新并建立更好的产品中。

想要了解有关如何在云中大大提高竞争力的更多信息？今天联系我们。