Llama3训练集群揭秘共24576个GPU

小火箭 • 2026年1月18日 am12:50 • 小火箭, 小火箭下载, 小火箭官网

“

Meta 公司透露了其专为 AI 训练设计的先进硬件基础设施细节。这些集群包括 24,576 个 GPU，采用了创新的网络结构解决方案，为支持当前和未来的 AI 模型打下了坚实基础。

Meta 公司日前揭示了其先进硬件基础设施的关键细节，这些硬件专门为 AI 训练而设计，Meta首席科学家Yann LeCun所指出的，重点之一是为 Llama 3 训练而设计。该公司披露了其拥有 24,576 个 GPU 的数据中心规模集群的内部机制，这些集群对支持当前和即将推出的 AI 模型至关重要，包括 Llama 3，以及 Llama 2 的后续版本。

这些集群代表了 Meta 公司在 AI 硬件领域的巨大投资，凸显了基础设施在塑造 AI 未来中的关键作用。这些集群的设计旨在支持 Meta 公司的长期愿景，即以开放和负责任的方式创建AGI，并致力于实现广泛可访问性。

根据最新进展，Meta 的 24,576-GPU 集群中部署了两种型号，每个集群配备不同的网络结构解决方案。其中一个集群采用了远程直接内存访问（RDMA）在收敛以太网（RoCE）网络结构上，而另一个则采用了 NVIDIA Quantum2 InfiniBand 结构。这两种解决方案都具备 400 Gbps 的端点，为大规模训练任务提供了无缝连接。