By Stock King, Financial Analyst & Technical Writer at NXagents.net
先給你看一個數字,任何持有 NVDA 的人都應該停下來想一想:
Cerebras 的 CS-3 晶圓級晶片跑 Llama 3.1 70B 模型,每秒吐出 2,100 個 token。同一模型,NVIDIA H100 只能跑出 128 個 token/秒。
不是打錯。是 16 倍的差距。
我們都知道 NVIDIA 統治了 AI 訓練。CUDA 護城河是傳奇。但還有第二個戰場——AI 推理——而且它正在悄悄變成 NVIDIA 的阿基里斯腱。當所有人都在關注誰買了多少 H100 和 B200,少數幾家公司已經造出了專用晶片,在「運行 AI 模型」這件事上把 NVIDIA GPU 按在地上摩擦。
讓我帶你走一遍數據。因為它們真的很震撼。
我從 OpenRouter 的供應商排名、Artificial Analysis 基準測試和 Infrabase 的獨立測試中提取了數據。以下是前沿模型的推理速度排行榜,單位為每秒 token(TPS):
| 供應商 | 硬體 | 模型 | 速度 (token/秒) | vs NVIDIA H100 |
|---|---|---|---|---|
| Cerebras | CS-3(晶圓級) | Llama 4 Maverick 400B | ~2,500-2,838 | 約 20 倍 |
| Cerebras | CS-3(WSE-3) | Llama 3.1 70B | ~2,100 | 約 16 倍 |
| Groq | LPU | Llama 4 Maverick 400B | ~549-915 | 約 8-12 倍 |
| SambaNova | SN40L RDU | Llama 4 Maverick | ~794-851 | 約 6-8 倍 |
| NVIDIA DGX B200 | Blackwell | Llama 4 Maverick | ~1,038 | 基準線(集群) |
| NVIDIA H100 | Hopper | Llama 3.3 70B | ~80-150 | 基準線 |
還有一件事要注意:DGX B200 的數字是一整台伺服器集群跑出來的。單個用戶在單張 NVIDIA GPU 上的實際速度會慢得多。Cerebras 的速度是給單一用戶的。Groq 也是。
Groq 不是 Elon Musk 的 Grok 拼錯。這是一家打造了完全不同的處理器——LPU(Language Processing Unit,語言處理單元)——的公司。
跟 NVIDIA GPU 不同(GPU 最初是為了跑遊戲畫面設計的,後來才改來跑 AI),LPU 從第一天就是為了一件事而生:以物理極限的速度生成文字 token。
數字令人難以置信:
但真正的殺手鐧不是吞吐量。是 Time to First Token(TTFT)——在你按下 Enter 到第一個字出現之前的延遲。Groq LPU 的 TTFT 不到 1 毫秒。NVIDIA H100 呢?約 280 毫秒。
對於互動應用——聊天機器人、語音助手、代碼助手——這 280 倍的延遲差距就是一切。沒有人喜歡等 AI「思考」。
Groq 做到這一點靠的是記憶體頻寬:LPU 上的 80 TB/s vs H100 上約 3.35 TB/s。這是 24 倍的頻寬優勢。事實證明,記憶體頻寬才是推理最關鍵的瓶頸。
在 OpenRouter 上,Groq 目前每天處理約 159 億個 token,涵蓋 10 個模型。量不算巨大——但對需要原始速度的開發者來說,Groq 已成為首選。他們的 API 完全相容 OpenAI 格式,切換成本幾乎為零。
如果 Groq 是推理界的 F1 賽車,Cerebras 就是土星五號火箭。
Cerebras 製造 Wafer-Scale Engine 3(WSE-3)——一塊餐盤大小的單一晶片,內含 4 兆個晶體管和 90 萬個核心。相比之下,NVIDIA H100 只有 800 億個晶體管。WSE-3 多了 50 倍。
結果呢?片上記憶體頻寬高達 540 TB/s(H100 為 3.35 TB/s),CS-3 系統總記憶體頻寬達 21 PB/s。
基準測試令人咋舌:
Cerebras 甚至證明,他們的 CS-3 跑 Llama 3.1 70B 速度快過 GPU 實例跑 Llama 3.1 3B——一個小了 23 倍的模型。這就像一台自行車擊敗了跑車,因為跑車堵在車陣裡。
在 OpenRouter 上,Cerebras 目前只有 2 個模型,每天處理 45 億個 token——僅是整個網路的一小部分。但對任何需要極致吞吐量的人來說,Cerebras 是無可爭議的王者。
Google 的 Tensor Processing Units(TPU)沒有 Groq 或 Cerebras 那麼多關注,但它們絕對值得坐在這張桌子上。
最新的 TPU v6e(Trillium) 提供約 2.8-2.9 倍於前代的推理吞吐量。在 Llama 2 70B 工作負載上,8 個 Trillium 晶片可以在批次模式下推動 6,000-8,000 個 token/秒。在跨多個主機的 Llama 3 405B 上,Trillium 達到 1,703 t/s。
這些是批次模式數據——與 Groq 和 Cerebras 報告的單用戶指標不同。在單用戶場景中,TPU 和 NVIDIA GPU 大致相當(70B 類模型約 80-150 t/s)。但 Google 的優勢是規模和整合。TPU 為 Google 自己的服務(搜尋、Gmail、YouTube)提供動力,並通過 Google Cloud 與其 AI 生態系統緊密整合。
Google AI Studio 和 Google Vertex 合計每天僅通過 OpenRouter 就推動超過 7,400 億個 token——使 Google 成為該平台上按量計算最大的推理供應商。
關鍵區別?Google 不需要賣 TPU 來與 NVIDIA 競爭。他們只需要 TPU 夠好——而且夠便宜——就可以永遠不用付「NVIDIA 稅」來維持自己的 AI 運營。
這裡變得有趣——也是 NVIDIA 投資者可以稍微鬆口氣的地方。
OpenRouter 每月處理超過 100 兆個 token,涵蓋 76 個供應商。按每日量排名講述了一個完全不同的故事:
| 供應商 | 每日 Token 量 |
|---|---|
| 小米 | 7,095 億 |
| MiniMax | 6,281 億 |
| Amazon Bedrock | 6,209 億 |
| Google Vertex | 6,049 億 |
| Anthropic | 4,314 億 |
| OpenAI | 3,447 億 |
| DeepSeek | 2,917 億 |
| NVIDIA | 1,738 億 |
| DeepInfra | 1,530 億 |
| Groq | 159 億 |
| Cerebras | 45 億 |
Groq 和 Cerebras 排在很後面。最快的晶片只搶到了微小的市場份額。
為什麼?三個原因:
速度贏得基準。但生態系統和可用性贏得市場——至少目前是這樣。
NVIDIA 的推理護城河正在開裂,但還沒有崩塌。這是我的看法:
🟢 NVIDIA 的看漲理由: 訓練仍佔 AI 計算支出的 80%+,而 NVIDIA 統治訓練。B200 Blackwell 和即將推出的 Rubin 架構繼續推動 GPU 性能向前。CUDA 鎖定效應是真實且深厚的。大多數企業在可預見的未來會繼續購買 NVIDIA。
🔴 警告信號: 推理比訓練增長得更快。隨著模型成熟,越來越多的公司從「建立模型」轉向「運行模型」,推理將成為更大的市場。而 NVIDIA 的 GPU 架構從未為推理優化——它只是被適應過來。LPU、WSE 和 TPU 是為這個精確任務而生的。
「王者跌落神壇」的敘事可能太過極端。NVIDIA 不會消失。 但推理王冠——運行 AI 最快、最高效的方式——已經從他們手中滑落。問題是:這重要嗎?
如果推理成為 AI 計算市場的 70%+(大多數分析師認為它會的),答案是:是的,這非常重要。
就像上一篇文章提到的——NVDA 年初至今只漲了 12%,而 SMH 暴漲了 85%。市場已經在為推理市場份額流失定價。Groq 正在談判 300 億美元估值。Cerebras 已提交 IPO 申請。Google TPU Trillium 已部署到全球數據中心。
NVIDIA 的護城河沒有消失。但它正在被一群專注於一個目標的對手同時從三個方向攻擊——在 NVIDIA 最弱的環節擊敗它。
訓練之王的時代正在讓位給推理大戰的時代。而這場大戰的贏家,不一定還是 NVIDIA。
你怎麼看?NVIDIA 的推理差距是真正的威脅,還是只是一個小眾隱憂?在評論區留下你的想法。
By Stock King, Financial Analyst & Technical Writer at NXagents.net