Llama3训练集群揭秘共24576个GPU

“
Meta 公司透露了其专为 AI 训练设计的先进硬件基础设施细节。这些集群包括 24,576 个 GPU,采用了创新的网络结构解决方案,为支持当前和未来的 AI 模型打下了坚实基础。
Meta 公司日前揭示了其先进硬件基础设施的关键细节,这些硬件专门为 AI 训练而设计,Meta首席科学家Yann LeCun所指出的,重点之一是为 Llama 3 训练而设计。该公司披露了其拥有 24,576 个 GPU 的数据中心规模集群的内部机制,这些集群对支持当前和即将推出的 AI 模型至关重要,包括 Llama 3,以及 Llama 2 的后续版本。
这些集群代表了 Meta 公司在 AI 硬件领域的巨大投资,凸显了基础设施在塑造 AI 未来中的关键作用。这些集群的设计旨在支持 Meta 公司的长期愿景,即以开放和负责任的方式创建AGI,并致力于实现广泛可访问性。
根据最新进展,Meta 的 24,576-GPU 集群中部署了两种型号,每个集群配备不同的网络结构解决方案。其中一个集群采用了远程直接内存访问(RDMA)在收敛以太网(RoCE)网络结构上,而另一个则采用了 NVIDIA Quantum2 InfiniBand 结构。这两种解决方案都具备 400 Gbps 的端点,为大规模训练任务提供了无缝连接。

值得一提的是,Meta 公司在 2022 年推出的 AI 研究超级集群(RSC),拥有 16,000 个 NVIDIA A100 GPU,在推动开放和负责任的 AI 研究方面发挥了关键作用,促进了像 Llama 和 Llama 2 这样先进 AI 模型的发展。
通过精心设计网络、软件和模型架构,Meta 公司成功地利用了 RoCE 和 InfiniBand 集群的功能,减轻了大规模 AI 工作负载中的网络瓶颈。其中包括在 Meta 公司的 RoCE 集群上进行的 Llama 3 持续训练会话,展示了基础设施在支持高级 AI 训练任务方面的有效性。
展望到 2024 年底,Meta 公司的目标是进一步扩展其基础设施,涵盖 350,000 个 NVIDIA H100s。这一扩张是其全面组合倡议的一部分,旨在实现与近 600,000 个 H100s 等效的计算能力。

往期推荐

Meta计划7月推出Llama 3
扎克伯格:正在开发 Llama 3和通用人工智能,GPU总数达60万


共有 0 条评论