安纳普尔纳峰实验室

云中的快速芯片设计

许可证 - 调度的第一种方法增强了资源管理

关于安纳普尔纳峰实验室

Annapurna Labs成立于2011年,是一家无晶圆厂芯片初创公司,专注于为快速增长的云基础设施带来创新。成立四年后,Annapurna实验室被亚马逊网络服务公司(AWS)收购。此后,Annapurna实验室加快了创新步伐,开发了一系列有利于云客户的产品,包括AWS Nitro技术、Inferentia定制机器学习芯片和基于64位Arm Neoverse架构的AWS Graviton2处理器。

他们面临的挑战

作为芯片设计公司,上市时间和工程效率是最关注的最关键和昂贵的指标。考虑到这一点,Annapurna Labs的团队为前端和后端工作流选择了Altair Accelerator™Job Scheduler。该团队在多个专用Amazon弹性计算云(EC2)实例上管理工作负载,并且它们可能会通过手动添加新的按需实例来扩展。但是,该过程并非自动化,导致高触摸,低效率,忘记未使用的计算资源,并且脱脂或过度缩放。作为Accelerator内的功能,使用Annapurna Labs开发了快速缩放未使用的计算资源,以增加结构和效率,以扩展AWS计算资源,缩短结果,并将开发模型更改为连续集成。



“Altair的许可证 - 首先调度启用的Annapurna实验室来提升其资源管理。它不仅让我们更加控制了资源使用和成本,我们通过连续集成开发流程大大提高了生产力和时间。“

- Nafea Bshara, Annapurna Labs



我们的解决方案

除了只有在有需求时才自动启动新实例之外,Rapid Scaling还会查看处理需求的速度,如果速度足够好就停止扩展。这意味着需求可以在10分钟内得到满足。使用许可证优先的调度方法可以使Accelerator有效地区分等待许可证的工作负载和等待硬件的工作负载。只有当工作负载等待硬件时,请求AWS实例才有意义。所有资源空闲一分钟后将被释放。

与Annapurna Labs合作添加了许多功能,包括可配置的实例类型,Spot实例支持,防止像实例类型的饱和度等各种错误,/ TMP的大小,可以在每个新的作业的微量控制实例,以及许多其他人。

电子设计自动化(EDA)作业可以很短,并且实例的启动时间与这些作业的运行时相当。理解工作负载速度和启动成本的能力使快速伸缩避免过度。Amazon EC2提供了最广泛和最深入的实例选择,构建在最新的计算、存储和网络技术上,并为高性能和安全性设计。快速伸缩允许作业资源请求映射到最适当的实例。

虽然AWS在某些情况下具有很高的弹性,但特定的实例类型可能不可用。如果第一选择不可用,那么Rapid Scaling了解如何选择备份实例类型。工作负载激增过后,空闲实例将终止。这种灵活性很好地映射到AWS的保留、按需和Spot实例概念中

结果

通过安装快速缩放,Annapurna实验室的成本至少降低了50%。此外,随着快速扩展现在成为安纳普尔纳实验室芯片开发持续集成流程的一部分,他们看到了更快的增量开发和持续回归。Annapurna Labs从项目和用户的资源使用的详细视图中对成本和收益保持更严格的控制。