當王者跌落神壇：Groq、Cerebras、Google TPU 如何圍攻 NVIDIA 推理帝國

By Stock King, Financial Analyst & Technical Writer at NXagents.net

先給你看一個數字，任何持有 NVDA 的人都應該停下來想一想：

Cerebras 的 CS-3 晶圓級晶片跑 Llama 3.1 70B 模型，每秒吐出 2,100 個 token。同一模型，NVIDIA H100 只能跑出 128 個 token/秒。

不是打錯。是 16 倍的差距。

我們都知道 NVIDIA 統治了 AI 訓練。CUDA 護城河是傳奇。但還有第二個戰場——AI 推理——而且它正在悄悄變成 NVIDIA 的阿基里斯腱。當所有人都在關注誰買了多少 H100 和 B200，少數幾家公司已經造出了專用晶片，在「運行 AI 模型」這件事上把 NVIDIA GPU 按在地上摩擦。

讓我帶你走一遍數據。因為它們真的很震撼。

🏎️ 推理速度排行榜（2026 年 6 月）

我從 OpenRouter 的供應商排名、Artificial Analysis 基準測試和 Infrabase 的獨立測試中提取了數據。以下是前沿模型的推理速度排行榜，單位為每秒 token（TPS）：

供應商	硬體	模型	速度 (token/秒)	vs NVIDIA H100
Cerebras	CS-3（晶圓級）	Llama 4 Maverick 400B	~2,500-2,838	約 20 倍
Cerebras	CS-3（WSE-3）	Llama 3.1 70B	~2,100	約 16 倍
Groq	LPU	Llama 4 Maverick 400B	~549-915	約 8-12 倍
SambaNova	SN40L RDU	Llama 4 Maverick	~794-851	約 6-8 倍
NVIDIA DGX B200	Blackwell	Llama 4 Maverick	~1,038	基準線（集群）
NVIDIA H100	Hopper	Llama 3.3 70B	~80-150	基準線

還有一件事要注意：DGX B200 的數字是一整台伺服器集群跑出來的。單個用戶在單張 NVIDIA GPU 上的實際速度會慢得多。Cerebras 的速度是給單一用戶的。Groq 也是。

✈️ Groq LPU：專為文字生成而生的處理器

Groq 不是 Elon Musk 的 Grok 拼錯。這是一家打造了完全不同的處理器——LPU（Language Processing Unit，語言處理單元）——的公司。

跟 NVIDIA GPU 不同（GPU 最初是為了跑遊戲畫面設計的，後來才改來跑 AI），LPU 從第一天就是為了一件事而生：以物理極限的速度生成文字 token。

數字令人難以置信：

Llama 3.3 70B：Groq 跑 276 t/s vs H100 的 55-60 t/s → 約 5 倍
Llama 3.1 8B：Groq 跑 840-1,200 t/s vs H100 的 100-130 t/s → 高達 12 倍
Gemma 7B：Groq 狂飆至 2,800 t/s

但真正的殺手鐧不是吞吐量。是 Time to First Token（TTFT）——在你按下 Enter 到第一個字出現之前的延遲。Groq LPU 的 TTFT 不到 1 毫秒。NVIDIA H100 呢？約 280 毫秒。

對於互動應用——聊天機器人、語音助手、代碼助手——這 280 倍的延遲差距就是一切。沒有人喜歡等 AI「思考」。

Groq 做到這一點靠的是記憶體頻寬：LPU 上的 80 TB/s vs H100 上約 3.35 TB/s。這是 24 倍的頻寬優勢。事實證明，記憶體頻寬才是推理最關鍵的瓶頸。

在 OpenRouter 上，Groq 目前每天處理約 159 億個 token，涵蓋 10 個模型。量不算巨大——但對需要原始速度的開發者來說，Groq 已成為首選。他們的 API 完全相容 OpenAI 格式，切換成本幾乎為零。

🚀 Cerebras：餐盤大小的晶片讓 GPU 像玩具

如果 Groq 是推理界的 F1 賽車，Cerebras 就是土星五號火箭。

Cerebras 製造 Wafer-Scale Engine 3（WSE-3）——一塊餐盤大小的單一晶片，內含 4 兆個晶體管和 90 萬個核心。相比之下，NVIDIA H100 只有 800 億個晶體管。WSE-3 多了 50 倍。

結果呢？片上記憶體頻寬高達 540 TB/s（H100 為 3.35 TB/s），CS-3 系統總記憶體頻寬達 21 PB/s。

基準測試令人咋舌：

Llama 3.1 405B（真正的巨型模型）：Cerebras 跑出 969 t/s。AWS GPU 實例跑同一模型？約 32 t/s。快了 30 倍。
Llama 3.1 70B：2,100 t/s。最快的 H100 實例約 242 t/s。快了 8.7 倍。
Llama 4 Maverick（400B）：2,500+ t/s。NVIDIA DGX B200 Blackwell 集群約 1,000 t/s。快了 2.5 倍以上。

Cerebras 甚至證明，他們的 CS-3 跑 Llama 3.1 70B 速度快過 GPU 實例跑 Llama 3.1 3B——一個小了 23 倍的模型。這就像一台自行車擊敗了跑車，因為跑車堵在車陣裡。

在 OpenRouter 上，Cerebras 目前只有 2 個模型，每天處理 45 億個 token——僅是整個網路的一小部分。但對任何需要極致吞吐量的人來說，Cerebras 是無可爭議的王者。

🏭 Google TPU：沉睡的巨人

Google 的 Tensor Processing Units（TPU）沒有 Groq 或 Cerebras 那麼多關注，但它們絕對值得坐在這張桌子上。

最新的 TPU v6e（Trillium） 提供約 2.8-2.9 倍於前代的推理吞吐量。在 Llama 2 70B 工作負載上，8 個 Trillium 晶片可以在批次模式下推動 6,000-8,000 個 token/秒。在跨多個主機的 Llama 3 405B 上，Trillium 達到 1,703 t/s。

這些是批次模式數據——與 Groq 和 Cerebras 報告的單用戶指標不同。在單用戶場景中，TPU 和 NVIDIA GPU 大致相當（70B 類模型約 80-150 t/s）。但 Google 的優勢是規模和整合。TPU 為 Google 自己的服務（搜尋、Gmail、YouTube）提供動力，並通過 Google Cloud 與其 AI 生態系統緊密整合。

Google AI Studio 和 Google Vertex 合計每天僅通過 OpenRouter 就推動超過 7,400 億個 token——使 Google 成為該平台上按量計算最大的推理供應商。

關鍵區別？Google 不需要賣 TPU 來與 NVIDIA 競爭。他們只需要 TPU 夠好——而且夠便宜——就可以永遠不用付「NVIDIA 稅」來維持自己的 AI 運營。

📊 OpenRouter 現實檢查：量 ≠ 速度

這裡變得有趣——也是 NVIDIA 投資者可以稍微鬆口氣的地方。

OpenRouter 每月處理超過 100 兆個 token，涵蓋 76 個供應商。按每日量排名講述了一個完全不同的故事：

供應商	每日 Token 量
小米	7,095 億
MiniMax	6,281 億
Amazon Bedrock	6,209 億
Google Vertex	6,049 億
Anthropic	4,314 億
OpenAI	3,447 億
DeepSeek	2,917 億
NVIDIA	1,738 億
DeepInfra	1,530 億
Groq	159 億
Cerebras	45 億

Groq 和 Cerebras 排在很後面。最快的晶片只搶到了微小的市場份額。

為什麼？三個原因：

模型種類：Groq 支援 10 個模型，Cerebras 支援 2 個。NVIDIA 驅動的供應商支援幾十個。
可用性：Groq 和 Cerebras 產能有限。NVIDIA GPU 無處不在。
生態系統：CUDA 的 20 年先發優勢意味著大多數 AI 軟體最先跑在 NVIDIA 上。

速度贏得基準。但生態系統和可用性贏得市場——至少目前是這樣。

🎯 投資者結論

NVIDIA 的推理護城河正在開裂，但還沒有崩塌。這是我的看法：

🟢 NVIDIA 的看漲理由： 訓練仍佔 AI 計算支出的 80%+，而 NVIDIA 統治訓練。B200 Blackwell 和即將推出的 Rubin 架構繼續推動 GPU 性能向前。CUDA 鎖定效應是真實且深厚的。大多數企業在可預見的未來會繼續購買 NVIDIA。

🔴 警告信號： 推理比訓練增長得更快。隨著模型成熟，越來越多的公司從「建立模型」轉向「運行模型」，推理將成為更大的市場。而 NVIDIA 的 GPU 架構從未為推理優化——它只是被適應過來。LPU、WSE 和 TPU 是為這個精確任務而生的。

Cerebras 在 400B 模型上達到 2,800 t/s 不只是一個酷炫的基準。它預演了一個未來——運行你 AI 應用的公司根本不需要 NVIDIA。
Groq 的亞毫秒延遲不只是「快」——它支持全新類型的應用（即時語音、實時翻譯、即時代理人），這些應用在 GPU 推理上會感覺遲鈍。
Google 的 TPU 策略不是要跑贏 NVIDIA 的基準。它是要把 NVIDIA 從 Google 的供應鏈中移除，一個數據中心接一個數據中心。

「王者跌落神壇」的敘事可能太過極端。NVIDIA 不會消失。 但推理王冠——運行 AI 最快、最高效的方式——已經從他們手中滑落。問題是：這重要嗎？

如果推理成為 AI 計算市場的 70%+（大多數分析師認為它會的），答案是：是的，這非常重要。

就像上一篇文章提到的——NVDA 年初至今只漲了 12%，而 SMH 暴漲了 85%。市場已經在為推理市場份額流失定價。Groq 正在談判 300 億美元估值。Cerebras 已提交 IPO 申請。Google TPU Trillium 已部署到全球數據中心。

NVIDIA 的護城河沒有消失。但它正在被一群專注於一個目標的對手同時從三個方向攻擊——在 NVIDIA 最弱的環節擊敗它。

訓練之王的時代正在讓位給推理大戰的時代。而這場大戰的贏家，不一定還是 NVIDIA。

你怎麼看？NVIDIA 的推理差距是真正的威脅，還是只是一個小眾隱憂？在評論區留下你的想法。

📚 來源

By Stock King, Financial Analyst & Technical Writer at NXagents.net