你的位置:首页 > 市场 > 正文

黄仁勋的“物理定律”:1GW无法变2GW,谁才是真的Token之王?

发布时间:2026-03-20 责任编辑:lily

【导读】在英伟达 GTC 2026 的聚光灯下,黄仁勋身着标志性皮夹克描绘的宏伟蓝图中,最震耳欲聋的声音并非来自某款芯片算力的倍数增长,而是关于“物理定律”的冷静断言:数据中心的功率上限是固定的,1GW 永远无法变成 2GW。当全网还在热议 Vera Rubin 的性能飞跃或太空数据中心的概念时,这场演讲真正的题眼已悄然转移——从单纯追求峰值算力,转向了衡量能源转化效率的核心指标:Tokens per Watt(每瓦 Token 数)。与此同时,阿里巴巴成立"Token Hub"的战略动作,也印证了行业认知的集体迁移:AI 竞争的度量衡正在经历一场从“部件语言”到“系统语言”的深刻变革。


这句话才是整场 GTC 2026 真正的题眼。


舆论热衷讨论的是 Vera Rubin 比 Blackwell 强多少倍、Groq LPX 能把推理速度拉高35倍、英伟达要把数据中心搬上太空。这些当然重要,但它们本质上都是同一个逻辑的不同表达:在能源约束下,最大化每一瓦电力的智能产出。


当黄仁勋把“Tokens/W”作为衡量AI工厂产出的核心度量衡时,其实背后还有一层更重要的产业深意,算力竞争的度量体系,正在从芯片走向系统,从峰值参数走向端到端能效,从谁的芯片更快走向谁可以把能源转化成智能的效率更高。


在当下的产品和技术矩阵之下,英伟达和黄仁勋都还受困于token/w,距离真正的token之王,还需要迈出很多步。


这是一次“智能度量语言”的迁移,而这次迁移所打开的产业视角,远比任何一颗新芯片都更值得深入讨论。


很巧的是,就在GTC正式开幕的前一天,阿里巴巴宣布成立Alibaba Token Hub,由吴泳铭亲自挂帅,阿里的AI核心,不是以AI命名,而是以Token命名,把Token升级到阿里的AI战略高度。


这同样体现出,用系统的视角看AI已经逐步成为行业新的认知。这正是希望能通过这篇文章强调的理念,也是本篇文章的意义所在。


01

GTC2026最值得重视的变化,不在芯片本身

GTC 2026,大家的关注焦点依然是Vera Rubin、Rubin POD、LPX、DSX AI Factory 这些新产品和新名词。但如果把这些发布放在一起看,会发现它把算力竞争的叙事边界,从单颗芯片,推进到了算力基础设施级别,也就是一整套由计算、网络、存储、电力、冷却、控制系统和软件共同构成的 AI factory。


Rubin 被描述为 POD-scale platform,多个机架共同组成一个大规模、相干的系统;DSX则被定义为面向AI factory 的参考设计,目标是最大化每瓦Token数。 


这说明,行业真正竞争的,会从某颗芯片算力有多高,转化到整个计算系统有多强,更细节一点,也就是整套系统能不能把有限的电力、冷却和网络资源,高效地组织成稳定的 AI 产出。


具体到度量单位,就是每瓦Token数(Token/W)。


本文希望从Tokens/W这个度量单位,来洞悉这场发布会所传达出的意义,以及对我们发展AI基础设施产业时所带来的机会。


02

既然竞争对象变成系统,度量体系就不能还停在芯片层

芯片时代的度量体系,大家都很熟。峰值算力Flops、显存带宽、FLOPS/W、TOPS/W、bit/J,这些指标都很重要,因为它们能描述一个部件的能力边界。


这就导致在实践中出现一个尴尬的状况:智算中心中没有一个客观、统一、且通用的度量单位。


一般来讲,衡量数据中心的单位会用到MW这个电力单位,而在国内建设智算中心时,用的是PFlops(基于FP16)这个算力单位。但是,同样的算力或电力单位的集群,如果内部的芯片、网络、散热不同,效能也会大不同。


原因并不复杂,之前的度量单位只能衡量某个维度,峰值算力描述的是一颗芯片理论上能做多少计算,bit/J描述的是局部数据搬运的能效,带宽描述的是单个子系统的信息通路能力,这些都是芯片在某个维度上的度量。


可是一整套AI系统最终要回答的问题是:在固定功率预算、固定散热条件、固定机房约束下,到底能跑出多少有效的AI结果。这个问题,单靠芯片层指标回答不了。


从NVIDIA这次的话语体系里可以看到,token cost(成本)、每瓦吞吐量、每瓦token性能、以及每瓦Token数。


度量语言体系正在从部件语言,转到系统语言。 


所以,如果说芯片层常用的度量是峰值算力、带宽和 bit/J,那么系统层更合理的度量,就应该是 Token/W。前者衡量部件能力,后者衡量整体产出。前者对应局部最优,后者对应系统最优。


03

Token/W 把能源到智能产出的链条接起来

NVIDIA在GTC 2026 现场文字稿里,把token称为现代 AI 的 basic unit。这个提法其实很到位。对大语言模型、推理服务、Agent 系统而言,用户最终买单的对象,本质上就是系统生成和处理 token 的能力。


从业务运营角度看,token 有三个优点:1)它和模型推理过程直接耦合。2)它和收入模型直接耦合。3)它适合覆盖推理时代的新负载。


Agent、多轮对话、长上下文、检索增强、工具调用、推理链,这些新负载很难用单一 FLOPS 描述,却都能在 token、latency、goodput维度上留下痕迹。


更重要的是,今天 AI 基础设施的底层约束,正在越来越直接地体现为能源约束。IEA 的《Energy and AI》报告预计,到 2030 年,全球数据中心用电将增长到约 945TWh,较当前水平大幅上升;AI 是其中最重要的驱动因素之一,美国更将占到这轮增长中的很大份额。换句话说,AI 产业接下来的很多问题,表面看像芯片问题,实质上是电力问题、散热问题和基础设施组织问题。 


Token/W 这个概念有价值,是因为它把 AI 产业最核心的那条链条接起来了:电力输入,经过计算、网络、存储、调度和冷却,最后变成 token 产出。


从这个意义上说,Token/W 并不是简单替代 FLOPS/W 或 bit/J。它补上的是一层过去还关注不到的视角:


AI 系统到底把多少能源,转化成了多少智能产出。


我认为,这次 GTC 最值得讨论的地方,恰恰在这里,不能再孤立地看芯片,必须把芯片放进系统,把系统放进产业约束里去看。


这也是作者一直倡导的角度。看AI芯片,不能只看算力峰值、内存带宽与大小、接口参数,还要看它在网络中怎样协同,在机架里怎样部署,在园区里怎样拿电,在客户那里怎样形成成本结构,最终在业务端怎样变成真实产出。


GTC 2026从某种程度上,公开验证了这种系统视角。因为当 NVIDIA 自己都开始把叙事中心放到 AI factory上时,行业就已经在从AI计算芯片中心主义走向计算系统中心主义。


这一点其实非常关键。很多产业会在早期沉迷于部件参数,因为部件参数最容易测,也最容易宣传。可一旦产业进入大规模部署阶段,真正决定胜负的,往往是系统组织能力。今天的 AI 基础设施,已经到了这个阶段。


04

从 Token/W 往下推,光互连的重要性会明显上升

一旦度量体系迁移到系统层,很多过去被视作配套的环节,地位都会提高。


光互连就是其中最典型的一类。


过去讲光互连,行业常用的是光模块视角、通信视角、器件视角:更高带宽、更远传输、更低 pJ/bit、更好的带宽密度、更低插损。这些都对,但这些语言仍然停留在组件、芯片这些子系统层。到了Token/W 的框架里,光互连的价值会变得更直观:它在降低数据搬运的能量代价,提升大规模AI计算系统把电力转化为 token 的能力。


在讲述NVIDIA的光网络产品时,基于光子的CPO相比光模块可实现最高 5 倍能效,同时降低延迟,并支撑更大规模的 AI factories 扩展。


这个说法的重点,就不只是链路更先进,而是系统规模更大、系统能效更高。 


从产业逻辑看,这件事很好理解。随着模型越来越大、上下文越来越长、集群越来越大,系统中的很多能耗,并不发生在算术单元上,而发生在数据搬运上,发生在跨芯片、跨板卡、跨机柜、跨POD的通信上。


到了这个阶段,提高 Token/W,已经不能只靠更强 GPU,还需要更高效的互连。 


所以,从Token/W的角度看,发展光互连并不是因为它很前沿,而是因为它正在变成大规模AI系统的必要节能手段。


05

光计算比光互连更前沿,但逻辑也开始成立

光计算要比光互连更早期,这一点要实事求是。


通用性、精度、编译器、制造一致性、系统集成,这些问题都还在演进中。可如果把观察边界放到系统层,它的产业意义已经比过去更容易讲清楚。


原因在于,Token/W 关心的是端到端能效。谁能在某一类高频、高密度、可重复映射的计算路径上,把能量消耗明显压下去,谁就有机会在系统层提高 token 产出效率。这个逻辑不要求光计算替代整个 GPU,也不要求它一步到位成为通用计算底座。


它只要求一件事:在某些关键工作负载里,让整套系统的J/token降下来,让固定功率预算下的token产出提上去。


这也是为什么光计算的叙事,需要从单点器件效率转向系统层节能贡献。如果行业只看TOPS/W、MAC/J,它更像实验室故事;但如果行业开始看Token/W,它就有机会进入基础设施讨论。


这个变化,对光计算尤其重要。因为它终于有了一个能和客户、园区、电力、资本开支对话的上层语言。 


06

当算力的度量从芯片走向系统,光互连与光计算就被推向产业主线

当算力竞争还主要停留在芯片层时,光互连更像 I/O 技术,光计算更像前沿器件探索。


当算力竞争迁移到AI大规模系统级基础设施时,事情就变了。系统效率越来越取决于密集计算能耗、数据搬运、上下文管理、跨节点协同、供电与热管理组织,而这些环节,恰恰是光学最有机会发挥作用的地方。


从 Token/W 的角度看,光互连解决的是每token生成背后的搬运电费;光计算尝试改写的是每个token背后的部分计算电费。二者共同影响的,是整套系统的token产出效率。


这就是它们进入产业主线的根本原因。 


更现实一点说,除了芯片产能与供给,未来数据中心和 AI factory 面临的约束,还会包括电网接入、机房散热、园区能耗、机柜功率密度和投产速度。之前国际能源署对AI对能源侧消耗的判断,以及这次NVIDIA对AI factory 的表达,都在指向同一个方向:AI 基础设施正在变成一个用能源来衡量的系统工程。


从这把新的方向往前看,光互连与光计算所解决的,是 AI 时代越来越昂贵、越来越难继续沿用传统电学路径去优化的那部分问题:数据搬运的能量代价,以及高密度计算的单位能耗。


这背后体现的,是一种更完整的系统思维。而这,也是这次 GTC 2026为何会再次着重提到光子与硅光技术产品的原因:


当算力的度量从芯片走向系统,光学就会从先进技术选项,逐步走向值得建设的产业基础设施。


从这个角度讲,CPO与光计算系统,未来非常可期!


当 Token/W 成为衡量 AI 工厂产出的终极标尺,传统的算力指标已不足以描述系统在电力、散热与网络约束下的真实效能。这一度量体系的迁移,不仅重新定义了光互连作为降低数据搬运能耗的关键角色,更赋予了光计算在特定负载下优化端到端能效的战略地位。未来,决定谁才是真正的“Token 之王”的,不再仅仅是晶体管的密度,而是整个系统架构将能源转化为智能的效率。


3-958x200_20251021044704_586.png

特别推荐
技术文章更多>>
技术白皮书下载更多>>
热门搜索

关闭

 

关闭