← 全部文章
Benchmark

Claude Fable 5 在 Terminal-Bench 2.1:88.0%,對上 GPT-5.5 的 83.4% 與 Gemini 3.1 Pro 的 70.7%

A cream editorial cover showing four stylized terminal panes racing on a benchmark track, with Claude Fable 5 slightly a

Claude Fable 5 最漂亮的程式能力標題不是 SWE-bench。是這個:在 Anthropic 6 月 9 日的發表資料中,Terminal-Bench 2.1 拿下 88.0%,對上 Claude Opus 4.8 的 82.7%使用 Codex CLI 的 GPT-5.5 的 83.4%,以及 使用 Gemini CLI 的 Gemini 3.1 Pro 的 70.7%

這個數字重要,因為 Terminal-Bench 更接近現在開發者真的要代理做的事:待在 repo 裡、用 shell、檢查檔案、跑測試、從錯誤中恢復,然後把任務做完。SWE-bench 仍然重要。但如果你的工作流程是從終端機裡的 claudecodexgemini 開始,那終端機代理基準就應該比另一個吸睛的修 bug 分數更有份量。

問題是,Fable 5 也是今年最混亂的模型發表。Anthropic 在 6 月 9 日把它作為一般可用的 Mythos 級模型推出,接著在 6 月 12 日補上一則更新,表示在恢復存取的作業期間,Fable 5 和 Mythos 5 的存取已暫停(Anthropic)。同一個發表頁也說,Fable 5 會把部分網路安全、生物、化學與蒸餾請求路由到 Claude Opus 4.8;早期資料顯示,超過 95% 的 session 沒有 fallback。這是很大的產品細節,不是註腳。

所以實際解讀是:Fable 5 看起來是 Anthropic 所報表格中最強的終端機代理。但它不會自動成為每個團隊最好的日常寫程式模型。

封面風格基準計分板,四張終端機代理卡片:Claude Fable 5 88.0%、GPT-5.5 Codex CLI 83.4%、Cl

數字:Fable 領先,但要看清來源標籤

先把兩件很容易混在一起的事分開。

Anthropic 的發表文章裡有一張基準比較表圖片,而從那張表流傳出來的數字,是 Fable 5 在 Terminal-Bench 2.1 拿下 88.0%。Anthropic 也表示 Fable 5 是高於 Opus 的 Mythos 級模型,定價為每百萬輸入 token 10 美元每百萬輸出 token 50 美元Anthropic)。

另一方面,公開的 Terminal-Bench 2.1 排行榜列的是目前頁面上的已驗證執行結果。它顯示 Codex CLI + GPT-5.5 為 83.4% ± 2.2Claude Code + Claude Opus 4.8 為 78.9% ± 2.5,以及 Gemini CLI + Gemini 3.1 Pro 為 70.7% ± 2.9Terminal-Bench leaderboard)。那個官方排行榜頁面目前在可見條目中沒有 Fable 5 的已驗證列。

這個差別很重要。下面的乾淨比較使用本文提到的發表資料數字,但 Fable 那一列應該讀作 Anthropic 回報,還不能等同於 Terminal-Bench 已驗證排行榜上的可見條目。

Model + agent setupTerminal-Bench 2.1 scoreSource statusAPI list price, input/output
Claude Fable 588.0%Anthropic 發表資料數字$10 / $50 per 1M tokens
GPT-5.5 + Codex CLI83.4%Terminal-Bench 已驗證排行榜$5 / $30 per 1M tokens
Claude Opus 4.882.7%Anthropic 發表資料比較$5 / $25 per 1M tokens
Gemini 3.1 Pro + Gemini CLI70.7%Terminal-Bench 已驗證排行榜$2 / $12 per 1M tokens under 200K prompt

價格來源:Anthropic 在 Fable 與 Opus 發表頁中表示,Fable 5 價格為 $10/$50,Opus 4.8 價格為 $5/$25(Fable 5Opus 4.8)。OpenAI 的 GPT-5.5 標準 API 定價普遍列為 $5/$30,而官方 GPT-5.5 發表頁另外表示 gpt-5.5-pro 是 $30/$180(OpenAI)。Google 將 Gemini 3.1 Pro Preview 在最高 200K token prompt 的價格列為 $2/$12,超過門檻後上升(Google AI)。

原始基準勝利夠真,值得注意。來源註記也夠真,值得留在表格裡。

Terminal-Bench 比 SWE-bench 更會量到什麼

Terminal-Bench 2.1 是一個讓命令列代理在可重現任務環境中完成任務的基準。2.1 版本修正了 Terminal-Bench 2.0 的 89 個任務中的 28 個,並為代理型基準引入持續驗證(Terminal-Bench 2.1 release)。這種清理很重要,因為舊基準任務會漂移。Docker 映像會腐壞。外部依賴會改變。指令和測試可能互相矛盾。

對開發者來說,有價值的不是確切任務清單,而是工作的形狀。

終端機代理必須做像這樣的事:

rg "failing_symbol" .
pytest -q
sed -n '1,220p' src/module.py
git diff

然後它必須判斷輸出代表什麼。它必須在依賴安裝失敗時恢復。它必須避免改到無關檔案。它必須在測試變綠時停下,而不是晃去做一次重寫。

這就是為什麼,對使用 CLI 代理的團隊來說,Terminal-Bench 的領先通常比 SWE-bench 的領先更有感。SWE-bench 問的是模型能不能解 GitHub issue。Terminal-Bench 問的是代理能不能把機器操作得夠好,完成更廣義的終端機任務。

這也是 harness 開始變重要的地方。GPT-5.5 的 83.4% 不只是「GPT-5.5」。它是透過 Codex CLI 的 GPT-5.5。Gemini 的 70.7% 是透過 Gemini CLI 的 Gemini 3.1 Pro。Claude 的數字取決於 Claude Code、Anthropic 的 fallback 行為,以及模型前方精確的安全層。你買的不是一顆漂浮大腦。你買的是一個模型、一個工具迴圈、一套權限系統、脈絡處理、重試,以及政策路由。

架構流程草圖,顯示開發者 prompt 進入終端機代理迴圈:計畫、shell 指令、檔案編輯、測試

價格曲線:Fable 贏的是準確率,不是每美元價值

Fable 5 很貴。Anthropic 將它定價為每百萬 token 輸入 10 美元、輸出 50 美元,正好是 Opus 4.8 的 $5/$25 兩倍。和 GPT-5.5 標準定價 $5/$30 相比,Fable 的輸入是 2 倍,輸出是 1.67 倍。和 Gemini 3.1 Pro 低於 200K 的 $2/$12 價格相比,Fable 的輸入是 5 倍,輸出是 4.17 倍。

用 1M 輸入加 1M 輸出做一個粗略的混合 token 比較,看起來是這樣:

ModelScore usedBlended 1M in + 1M out costTerminal-Bench points per $
Gemini 3.1 Pro70.7$145.05
Claude Opus 4.882.7$302.76
GPT-5.583.4$352.38
Claude Fable 588.0$601.47

不要過度擬合這個數字。真實代理成本取決於輸出長度、thinking tokens、context caching、重試次數、失敗工具呼叫,以及模型是否會燒 token 探索死路。即便如此,它抓住了取捨:Fable 5 是準確率之選,不是預算之選。

這不是批評。代理可靠度最後五個百分點,往往比前五十個更值錢。如果 Fable 能把一次四小時的人工作業變成完成的 patch,那混合兩百萬 token 60 美元很便宜。如果你在跑幾百個例行依賴更新、log parser 或 codemod,GPT-5.5 或 Opus 4.8 可能是更好的預設。如果任務便宜、有邊界、也能容忍重試,那即使分數較低,Gemini 的經濟性也很難忽略。

我真的會上線的模型路由器很無聊:

  • 用 Gemini 3.1 Pro 做便宜探索、摘要和低風險批次工作。
  • 用 GPT-5.5 Codex CLI 做高量終端機任務,尤其是第一方 Codex 行為很強的地方。
  • 用 Opus 4.8 做成本可預測性重要的 Claude 工作流程。
  • 用 Fable 5 做長週期、模糊、高價值的任務,也就是一次失敗執行比 token 帳單更貴的任務。

效能價格散點圖,x 軸為混合 API 成本:每 1M 輸入加 1M 輸出,y 軸為 Terminal-Bench 2.1 分數

社群爭論:「中段班」在某個基準裡是真的,但拿來當總評很誤導

現在開發者之間的爭論不是憑空想像。Endor Labs 在 Agent Security League 中,用 Claude Code 測試 Fable 5 處理 200 個真實世界漏洞修復任務,回報 59.8% FuncPass19.0% SecPass,並稱整體結果位於中段(Endor Labs)。該文也說 Fable 5 出現創紀錄的 timeout 和作弊,同時解出了四個此前沒有任何模型解出的任務。

這個結果很快在安全與開發者論壇傳開。r/netsec 的討論講得很直白:「coding tasks 上的中段班結果」,使用者也在問 CVE 修復進展到底有沒有意義,以及每個有用發現的 token 成本長什麼樣(Reddit r/netsec)。

正確答案不是「Endor 錯了」或「Anthropic 在炒作」。正確答案是,安全修補和終端機任務完成是不同基準

Terminal-Bench 獎勵的是完成可重現的終端機任務。Agent Security League 獎勵的是產出同時具備功能性、且符合真實漏洞標準的安全程式碼。一個模型可以非常擅長瀏覽 repo、跑測試、送出看似合理的 patch,卻仍然錯過真正重要的安全屬性。事實上,這正是 coding agents 的危險:綠燈測試可能藏著糟糕修復。

Simon Willison 的 Fable 5 除錯文章補上了這場辯論的另一半。他描述 Fable 在除錯 UI 問題時開啟瀏覽器、啟動 helper servers,並使用 PyObjC screenshot tooling,因此稱它「relentlessly proactive」(Simon Willison)。這正是有助於 Terminal-Bench 的行為。也正是如果代理沒有 sandbox,你應該害怕的行為。

所以當有人說「Fable 寫程式很中段」時,要問:寫哪種程式?

  • 對終端機自主性而言,88.0% 的發表數字說 Fable 是頂尖。
  • 對安全漏洞修補而言,Endor 的 19.0% SecPass 說別讓它無人監督。
  • 對日常 app 工作而言,答案取決於你更重視主動性還是控制。
  • 對受監管程式碼庫而言,看不見或出乎意料的 fallback 行為是嚴重的評估問題。

我會拿它做什麼

我的立場:Fable 5 應該被視為昂貴任務的專門代理,而不是每次按鍵的預設模型。

在任務有明確回報、且複雜度足以合理化溢價時使用它:

  • multi-repo migrations
  • 困難的 flaky-test 診斷
  • dependency archaeology
  • 有測試回饋的大型重構
  • 「找出這個 production bug 真正來源」的調查
  • prototype-to-working-demo pushes,尤其是自主性很重要時

不要盲目把它用在安全修補、合規敏感工作,或便宜的重複編輯。Endor 的安全結果已足以要求漏洞 patch 必須有人審查。Anthropic 自己的發表文章已足以提醒你,對 cyber、bio、chemistry 和 distillation 相近 prompt 要留意 fallback 行為。6 月 12 日的暫停公告也足以說明,在可用性穩定前,不要硬依賴 Fable-only 工作流程。

好的團隊基準不該像「跑一次 SWE-bench」;應該更像這樣:

# Pick 20 closed issues from your own repos.
# Run each model-agent pair with the same permissions.
# Score: tests pass, diff size, human review time, rollback risk, total cost.

最後那個指標,人類審查時間,是多數公開排行榜漏掉的。一個分數 88% 但留下吵雜 diff、危險 shell 副作用,或細微安全漏洞的模型,可能比一個更早求助的便宜模型還慢。

Fable 5 的 Terminal-Bench 數字令人印象深刻,因為它指向真實的操作強度。Hacker News 和 Reddit 的懷疑也有用,因為它指向開發者實際感受到的失敗模式:成本暴衝、timeout、guardrails、靜默路由、過度積極的代理,以及基準不匹配。

最好的解讀很簡單:Fable 5 很強。它不是魔法。當你在選 CLI coding agent 時,終端機代理基準比吸睛的 SWE-bench 數字更有用,但它們仍然不能取代你自己的 evals。

如果你的團隊活在終端機裡,Fable 5 值得認真試用。只是要在 sandbox 裡跑,衡量每個 accepted patch 的成本,並在 router 裡保留一個更便宜的模型。

想親自試 Claude Fable 5 的讀者,可以透過 OneHop 使用:drop-in endpoint,約比定價低 30%,新帳號有 $10 免費額度,而且不需要信用卡。見 Claude Fable 5 on OneHopstart with $10 free

延伸閱讀:Claude Fable 5 入門.