发布日期:2026-04-09 00:54 点击次数:115

如若你以为英伟达的 GB200 机架式系统曾经够纷乱了,那么 CEO 黄仁勋的贪念才刚刚运行。在上个月的 GTC 大会上,这家全球市值最高的公司公布了狡计,拟诓骗光子互连技能,在 2028 年前将出奇一千个 GPU 集成到一个巨型系统中。
该公司并未坐等供应链的雄厚。当年一个月,这家 GPU 巨头已向 Marvell、Coherent 和 Lumentum 等光学和互连技能公司投资数十亿好意思元,为这些系统的平方部署作念好准备。
黄仁勋在 GTC 主题演讲中示意:"对于咱们生态系统中的扫数参与者来说,咱们需要更大的产能。咱们需要更大的铜缆产能;咱们需要更大的光器件产能;咱们需要更大的 CPO 产能;正因如斯,咱们一直在与大家协作,为已矣这一增长水平奠定基础。"
关联词,英伟达走到今天这一步的经过其实运行得更早。事实上,早在 2022 年底 OpenAI 向寰球发布 ChatGPT 时,英伟达就曾经意志到我方遭受了问题。
其时,这家 GPU 巨头最强项的系统也唯有 8 个 GPU,而推进东谈主工智能蕃昌发展的模子却需要数千个 GPU 进行覆按。英伟达需要更大的惩处器,或者至少需要一个速率更快的收集,能够有用地将使命负载分派到数十个芯片上。
咱们在 2023 年英伟达的 Grace Hopper 超等芯片上初度窥见了这种技能的雏形,但直到 2024 年头,其全貌才得以展现。同庚在 GTC 大会上亮相的 Grace Blackwell NVL72,是一款功率高达 120 千瓦的巨型机器,它接管铜质背板,里面布满数英里的线缆,使 36 个节点和 72 个 GPU 能够像一个巨大的 AI 加快器相似协同使命。
Nvidia 收集高等副总裁 Gilad Shainer 告诉 El Reg ,铜是已矣这一指方向当然遴荐。
"如若条款允许,铜线是最好的连系款式,"他说。"它相配经济实惠,价钱便宜,而且零功耗。它相配可靠,也莫得任何有源元件。"
但铜线并非白玉无瑕。在 1.8 TB/s 的传输速率下,由于 GPU 之间通讯,铜线只可蔓延几英尺,信号就会运行衰减。如若你曾经爱慕为什么 NVL72 的 NVSwitch 齐位于机架中央,那是因为透露长度有限。铜线传输距离的局限性也意味着英伟达必须尽可能多地将 GPU 塞进单个机架中。
两年后,英伟达正飞速接近铜的极限,如若思要拼装更大的 GPU 系统,就需要接管光学技能。
可插拔问题
当黄先生初度展示代号为 Oberon 的 NVL72 机架时,将两个加快器进行光学连系的独一生意可行门径是使用可插拔光学器件。
这些模块的大小和一包口香糖差未几,包含了将电信号诊治成光信号以及将光信号诊治来电信号所需的扫数激光器、定时器和数字信号惩处安装。
可插拔建树在数据中心收鸠合并不清新,但将其用于像英伟达的 NVLink 这样的纵向扩张谋划架构,会带来一些问题。
为了达到 1.8 TB/s 的带宽,每块 Blackwell GPU 需要 18 个 800 Gbps 的可插拔模块:9 个用于加快器,另外 9 个用于交换机。这些可插拔模块自己功耗并不高——约莫 10-15 瓦——但 72 块 GPU 加起来,功耗就特地可不雅了。
正如黄在 2024 年 GTC 主题演讲中指出的那样,光学器件需要额外的 20,000 瓦功率。
关联词,自 Oberon 机架初度亮相以来,很厚情况齐发生了变化。共封装光学器件 ( CPO ) 技能的当先,将光引擎径直集成到交换机 ASIC 摆布,有助于镌汰功耗。
2025 年,英伟达成为首批接管 CPO 技能的 AI 基础面貌提供商之一,将其径直集成到 Spectrum 以太网和 Quantum InfiniBand 交换机中。(博通旗下的 Micas Networks 也在采用肖似举措。)
这大大减少了构建东谈主工智能覆按集群所需的可插拔组件数目。关联词,直到最近,该公司才运行探讨在其 NVSwitch 架构中使用光模块和 CPO(共封装光学模块)。
NVLink 已矣光纤化
两年前,黄仁勋还对光互连过于耗电嗤之以鼻,但本年春天在 GTC 大会上,他又重新注视了这一话题,抢庄牛牛推出了 Vera Rubin NVL576 和 Rosa Feynman NVL1152,这两个多机架系统将诓骗光子学技能将其谋划域扩张八倍。
如若您以为 NVL576 这个数字耳熟,那是因为它之前就出现过。事实上,在最初的 NVL72 机架式显卡发布时,Nvidia 就曾预报过一款配置了这样多 GPU 的显卡,但据咱们所知,这样的系统从未在内容应用中部署过。
Nvidia 曾经片晌地以 NVL576 品牌销售其 Vera Rubin Ultra Kyber 机架,但自后决定内容上并不思将每个单独的 GPU 芯片计为一个零丁的加快器。
除非英伟达的商场营销或阶梯图再次发生变化,不然确实的 Vera Rubin NVL576 将接管铜和光纤互连的组合。
黄仁勋在本次 GTC 主题演讲中示意:"当今有许多对于‘英伟达是会扩大铜缆限制如故扩大光缆限制?’的参议。咱们将两者齐作念。"
据英伟达超大限制和高性能谋划副总裁伊恩 · 巴克 ( Ian Buck ) 先容,收集的第一层将接管机架内的铜缆互连,这意味着 GPU 无需任何改换。第二层骨干网将接管可插拔模块。
咱们尚不明晰英伟达狡计为此使用哪种拓扑结构,但两层胖树详情顺应要求,况且脊柱层只需要一个机架的交换机(统统 72 个 ASIC)。
对于模块自己而言,可插拔模块是最肤浅的遴荐,但英伟达也不错遴荐近封装光学器件 ( NPO ) ,就像 Lightmatter 上个月展示的那样。
Vera Rubin 认为,英伟达目下只磋商其 Oberon NVL72 机架的光学缩放,而不是其 NVL144 Kyber 系统。
咱们不太明晰英伟达作念出这个决定的具体原因,但值得介意的是,如若赈济光刻扩张,就不需要把扫数东西齐塞进一个机架里。因此,从散热和功耗的角度来看,赈济跨越八个机架的光刻扩张可能更合理。
Nvidia Feynman 接管共封装
确实兴味兴味的所在在于英伟达的费曼一代产物,预测将于 2028 年中后期运行出货。据悉,这些系统将提供铜缆或共封装光纤 NVLink 互连两种遴荐。
英伟达对这一切将怎样运作守口如瓶,但有几种可能的门路。
最肤浅的遴荐是将 CPO 集成到 NVLink 交换机 ASIC 中,并无间在机架中使用铜互连。
这将需要一个两层 NVSwitch 架构和两到三个不同的交换机 ASIC:一个半光纤的,一个全光纤的,以及一个可能莫得 CPO 的。
这样作念不错让英伟达通过肤浅地更换 NVLink 交换机托架或根据需要推入脊柱机架来赈济多种配置。
更兴味兴味的决策是将 CPO 集成到交换机和 GPU 封装中。这险些详情会导致 Feynman GPU 推出多个 SKU ——一个带光模块,一个不带——但不错将收集架构简化为单层结构。
上个月在 GTC 大会上,Shainer 在收受 El Reg 采访时阻隔评述公司狡计接管哪种门径,但他强调了单层谋划架构的上风。
他说:"如若莫得必要,就不要构建多个层级,因为要尽量减少谋划引擎之间的延迟。"
固然不错将 CPO 集成到 GPU 中,但单层 NVL1152 系统需要一个极其高阶的交换机。不外,沟通到 Feynman 芯片不太可能在 2028 年中后期上市,咱们认为这并非不成能。
保险坐蓐府上
岂论哪种决策,齐需要有余的激光模块供应。固然 CPO(集成光刻)技能将大部分光学和信号惩处功能集成到封装中,但为了便于感触,激光器频繁仍保捏零丁。这大致不错解说英伟达上个月为何向 Coherent 和 Lumentum 这两家专注于光学激光器的公司辨别投资 40 亿好意思元(各 20 亿好意思元)。如若英伟达思要确实有用地接管 CPO 技能,其供应链必须作念好准备。
进一步的笔据标明,英伟达正在转向加快器上的 CPO 政策,举例该公司本周早些时分文书与 Marvell 达成 20 亿好意思元的协作契约。
算作这项投资的一部分,英伟达将与 Marvell 协作,将 NVLink Fusion(其高速互连技能的授权版块)集成到定制的 XPU 中,供英伟达 Vera CPU 使用。两边还将协作拓荒光纤 I/O 技能,但具体协作规模并未浮现。
正如 The Next Platform 本周早些时分 参议的那样,Marvell 以 32.5 亿好意思元收购 Celestial AI 的来去可能与此联系。
这家初创公司的光子互连技能可用于构建跨多个机架的联系存储收集,这对于英伟达来说可能极具眩惑力,正如它对 Marvell 最大的客户之一(包括 AWS)相似。您可能还铭刻,AWS 是英伟达 NVLink Fusion 的最大客户之一,并狡计在其下一代 Trainium4 谋划集群中使用这项技能。
总之,英伟达彰着曾经意志到光学扩张的病笃性牛牛,咱们不错预期 CPO 将在其畴昔的系统遐想中发挥更大的作用。
亚搏体育官方网站 - YABO