NVIDIA与Blackwell一起改写摩尔定律

NVIDIA与Blackwell一起改写摩尔定律-3

NVIDIA CEO宣布了新一代GPU“Blackwell”,标志着AI计算进入生成式时代。Blackwell提供了巨大的计算能力和效率,适用于万亿参数规模的AI模型。此举被认为标志着新的计算时代的到来,尤其是在AI领域。与此同时,专家表示关注未来的GPU市场发展。

NVIDIA 在 2024 年的 GTC 大会上,由 CEO Jensen Huang 主持,正式宣布了其最新一代 GPU 产品,命名为 Blackwell,被誉为“非常大型 GPU”。在这一宣布中,黄仁勋似乎在暗示着摩尔定律黄金时代的结束。

在回顾了计算能力迅速增长的情况后,黄指出,仅在八年时间里,NVIDIA 将计算能力提升了一千倍,远超过了摩尔定律鼎盛时期的标准。然而,尽管取得了惊人的增长,行业依然无法满足不断增长的需求。

“过去的八年里,我们将计算能力提升了一千倍,我们还有两年的时间。这让人们意识到,我们在推进计算的速度是疯狂的。然而,这依然不够快。” 黄 表示。

NVIDIA与Blackwell一起改写摩尔定律-4

据称,未来将迎来一个生成式时代,这也是他们将其称为“生成式 AI”的原因,标志着一个全新行业的开端。他承认他们对待计算的方式与竞争对手有根本的不同。“我们专门为生成时代创建了一款处理器。” 他说,并补充道,“其中一个关键组成部分就是我们称之为‘内容令牌生成’,我们以 FP4 格式进行格式化。”

值得注意的是,这一转变需要大量的计算——令牌生成和 Hopper 的推断能力分别提升了五倍。 黄 思考着:“这可能看起来已经足够了,但我们问自己,为什么要止步于此?” 并表示答案是不够。

在这一宣布之后,许多专家和业内人士纷纷在社交媒体上表示,这标志着新的摩尔定律时代,或者可以称之为黄氏定律时代。

Blackwell,这款GPU巨兽的释放 NVIDIA 最新的 GPU 架构以杰出的美国统计学家和数学家 David Harold Blackwell 的名字命名,他在博弈论、概率论、信息论和统计学等领域都做出了重要贡献。

NVIDIA 的 Blackwell 是一款改变游戏规则的 AI 平台,适用于万亿参数规模的生成式 AI。B200 GPU 提供了 20 petaflops 的计算能力,GB200 则提供了 30 倍于 Hopper 的 LLM 推断工作负载性能,使效率达到了新的高度。

Blackwell 采用了第二代 Transformer 引擎,将 AI 模型大小加倍,使用新的 4 位精度。第五代 NVLink 互连技术还可以使多达 576 个 GPU 在万亿参数模型上无缝运行。一个 AI 可靠性引擎最大化了超级计算机的正常运行时间,可以持续数周的训练运行。

新的 Tensor Cores 和 TensorRT-LLM 编译器显著降低了 LLM 推断的运行成本和能耗,最高可达到前者的 25 倍。

像亚马逊、谷歌、微软和特斯拉等主要科技巨头已经承诺采用 Blackwell。

黄 表示,使用 25,000 安培训练具有 1.8 万亿参数的 GPT 模型(GPT-4)通常需要三到五个月的时间。相反,Blackwell 只需要 2000 个 GPU 和显著更少的功耗(仅四兆瓦特)来完成相同的训练。他表示,NVIDIA 的目标是降低计算成本和能源消耗,从而促进训练下一代模型所需的计算规模化。

为了展示 Blackwell 的规模,NVIDIA 还发布了 DGX SuperPOD,这是一款下一代 AI 超级计算机,配备了高达 576 个 Blackwell GPU 和 11.5 exaflops 的 AI 计算能力。每个 DGX GB200 系统都配备了 36 个 Blackwell GPU,与基于 Arm 的 Grace CPU 协同链接。

与此相比,英特尔最近推出了基于 Xe-HPC 架构的 Ponte Vecchio GPU,作为数据中心 Max GPU 品牌的一部分。然而,公司面临着其游戏和消费品产品的独立 GPU 路线图延迟的问题,这可能会影响其未来的 AI 训练能力。

另一方面,AMD 的最新产品是基于其 CDNA 3 架构的 Instinct MI300 加速器系列。旗舰型号 MI300X 承诺每个芯片的 AI 推断性能比 NVIDIA 的 H100 高出多达 1.6 倍。然而,对于关键的 AI 训练工作负载,MI300X 在原始性能指标如 FP8 吞吐量上仍然落后于 H100。

相比之下,B200 的每个 GPU 在 AI 训练性能上提供的 FP8 吞吐量比上一代 Hopper 高出多达 2.5 倍。但它真正的强项在于推断——新的 FP6 数字格式有效地使推断吞吐量比 FP16 提高一倍,从而使大型语言模型推断性能比 Hopper 提高了多达30 倍。

Blackwell 还配备了高达 8TB/s 的大容量内存带宽和每个 B200 GPU 高达 192GB 的内存。

虽然英特尔和 AMD 正在取得进展,但 NVIDIA 的 Blackwell 平台通过针对万亿参数 AI 模型独特需求的架构创新,显著提升了标准。

考虑到摩尔定律已被正式宣布死亡,未来几个月内这一领域的发展将非常值得关注。“一旦 AMD 可用,GPU 价格就会下降,” Abacus.AI 首席执行官 Bindu Reddy 表示,对未来五年的计算提出了有趣的预测。

NVIDIA与Blackwell一起改写摩尔定律-5

往期推荐

NVIDIA与Blackwell一起改写摩尔定律-6

NVIDIA与Blackwell一起改写摩尔定律-7

英伟达推出B200:成本和能耗降低 25 倍,性能提升30倍

版权声明:
作者:小火箭
链接:https://www.xiaohuojian6.top/526.html
来源:小火箭官网
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>