刚刚, 英伟达祭出下一代GPU! 狂飙百万token巨兽, 投1亿爆赚50亿

新智元报道

[新智元导读]昨天，英伟达重磅发布了专为海量上下文AI打造的CUDAGPU——RubinCPX，将大模型一次性推理带入「百万Token时代」。NVIDIA创始人兼CEO黄仁勋表示，VeraRubin平台将再次推动AI计算的前沿，不仅带来下一代RubinGPU，也将开创一个CPX的全新处理器类别。

「百万Token怪兽」出世！

昨天，NVIDIA突放大招，推出了RubinCPX，这是一款专为大规模上下文推理而设计的全新GPU。

它的性能，是VeraRubinNVL144平台的2倍多，是基于BlackwellUltra的GB300NVL72机架式系统的7.5倍！

它具有单机架8EFLOPS的NVFP4计算力、100TB高速内存与1.7PB/s的内存带宽、128GB的高性价比GDDR7显存。

相比较NVIDIAGB300NVL72系统，RubinCPX带来了3倍的注意力机制处理能力。

性能巨兽，在变现能力上更是不容小觑。

每投入1亿美元，最高可以带来50亿美元的Token收入！

RubinCPX

开创CPX全新处理器类别

RubinCPX基于Rubin架构构建，是首款专为海量上下文AI打造的CUDAGPU，能够在同一时间推理跨越数百万个知识标记的模型。

可以说，RubinCPX是专为破解AI「长上下文」瓶颈而生的「特种兵」。

它的出现，为AI带来了百万Token级推理场景下的性能和效率的新突破。

依托于全新的NVIDIAVeraRubinNVL144CPX平台，RubinCPX与NVIDIAVeraCPU和RubinGPU紧密协同，可以支持多步推理、持久化记忆与长时程上下文，这让它在面对软件开发、视频生成、深度研究等领域的复杂任务时，更加游刃有余。

这也意味着在RubinCPX的最新加持下，AI编码将从简单的代码生成工具，升级为能够理解并优化大规模软件项目的复杂系统。

同样，它还可以满足长视频与研究类应用领域，在数百万Token级别上保持持续一致性与记忆的需求。

这些需求，都在逼近当前基础设施的极限。

NVIDIA创始人兼CEO黄仁勋表示，VeraRubin平台将再次推动AI计算的前沿，也将开创一个CPX的全新处理器类别。

「正如RTX颠覆了图形与物理AI一样，RubinCPX是首个专为海量上下文AI打造的CUDAGPU，模型能够一次性跨越数百万个Token的知识进行推理。」

目前，Cursor、Runway和Magic等AI先锋企业，正在积极探索RubinCPX在应用加速上的新可能。

30-50倍ROI

重写推理经济

RubinCPX通过解耦式推理创新，可以企业带来30-50倍ROI，重写推理经济。

大模型的推理，主要分为上下文和生成两个阶段。

它们对于基础设施的要求，也存在着本质性的差异。

上下文阶段，以计算受限为主，需要高吞吐处理来摄取并分析海量输入数据，以产出第一个Token的输出结果。

而生成阶段，则以内存带宽受限为主，依赖快速的内存传输与高速互联（如NVLink）来维持逐Token的输出性能。

解耦式推理，可以让这两个阶段独立处理，从而更加针对性地优化算力与内存资源，提升吞吐，降低时延，增强整体资源的利用率。

但解耦式推理，也带来了新的复杂性层次，需要在低时延KV缓存传输、面向大模型感知的路由，以及高效内存管理之间进行精确协调。

这离不开NVIDIADynamo，它作为以上组件的编排层，发挥着关键作用。

RubinCPX是专为大语言模型（尤其是百万Token上下文）推理设计的「专用加速器」。

RubinCPX与NVIDIAVeraCPU，以及用于生成阶段处理的RubinGPU协同工作，共同形成了面对长上下文场景的完整的高性能解耦式服务方案。

CPX的推出，标志着解耦式推理基础设施的最新进化，也树立了推理经济的新标杆。

在规模化场景下，NVIDIAVeraRubinNVL144CPX平台，可带来30–50x的投资回报（ROI）。

这意味着1亿美元的资本性支出（CAPEX），最高可转化为50亿美元的收入。

百万Token怪兽

重新定义下一代AI应用

VeraRubinNVL144CPX平台，重新定义了企业构建下一代生成式AI应用的可能性。

NVIDIAVeraRubinNVL144CPX机架与托盘，配备Rubin上下文GPU（RubinCPX）、RubinGPU与VeraCPU

RubinCPX与NVIDIAVeraCPU、RubinGPU，共同集成在全新的NVIDIAVeraRubinNVL144CPX平台内。

NVIDIAVeraRubinNVL144CPX平台，采用最新GPU架构，具备极高算力与能效比，可以基于MGX架构实现机架级部署。

1.算力跃升

NVIDIAMGX机架式系统，单机架集成了144块RubinCPXGPU、144块RubinGPU与36颗VeraCPU，可以提供8EFLOPS的NVFP4计算力，并在单机架内配备100TB高速内存与1.7PB/s的内存带宽。

2.长序列的高效处理优化

RubinCPX针对长序列的高效处理进行了优化，是软件应用开发与高清（HD）视频生成等高价值推理用例的关键。

3.显存升级

单个RubinCPXGPU可以提供高达30petaflops的NVFP4计算能力，它配备128GB的高性价比GDDR7显存，以加速最苛刻的上下文类工作负载。

4.注意力机制加速

相比NVIDIAGB300NVL72系统，RubinCPX带来了3倍的注意力机制处理能力，显著提高模型处理更长上下文序列的能力且不降速。

5.多种形态配置

RubinCPX提供多种形态配置，包括VeraRubinNVL144CPX，并可与NVIDIAQuantum-X800InfiniBand横向扩展计算网络。

也可以搭配采用NVIDIASpectrum-XGS以太网技术与NVIDIAConnectX®-9SuperNICs™的NVIDIASpectrum-X™以太网网络平台结合使用，以实现大规模部署。

RubinCPX

拥抱NVIDIA全栈AI生态

在生态上，RubinCPX将得到完整的NVIDIAAI堆栈支持，包括：

NVIDIARubinCPX预计将于2026年底可用。

它的推出将为全球开发者与创作者解锁更强大的能力，重新定义企业构建下一代生成式AI应用的可能性。