Claude Fable 5 在 Terminal-Bench 2.1：88.0%，對上 GPT-5.5 的 83.4% 與 Gemini 3.1 Pro 的 70.7%

Claude Fable 5 最漂亮的程式能力標題不是 SWE-bench。是這個：在 Anthropic 6 月 9 日的發表資料中，Terminal-Bench 2.1 拿下 88.0%，對上 Claude Opus 4.8 的 82.7%、使用 Codex CLI 的 GPT-5.5 的 83.4%，以及 使用 Gemini CLI 的 Gemini 3.1 Pro 的 70.7%。

這個數字重要，因為 Terminal-Bench 更接近現在開發者真的要代理做的事：待在 repo 裡、用 shell、檢查檔案、跑測試、從錯誤中恢復，然後把任務做完。SWE-bench 仍然重要。但如果你的工作流程是從終端機裡的 claude、codex 或 gemini 開始，那終端機代理基準就應該比另一個吸睛的修 bug 分數更有份量。

問題是，Fable 5 也是今年最混亂的模型發表。Anthropic 在 6 月 9 日把它作為一般可用的 Mythos 級模型推出，接著在 6 月 12 日補上一則更新，表示在恢復存取的作業期間，Fable 5 和 Mythos 5 的存取已暫停（Anthropic）。同一個發表頁也說，Fable 5 會把部分網路安全、生物、化學與蒸餾請求路由到 Claude Opus 4.8；早期資料顯示，超過 95% 的 session 沒有 fallback。這是很大的產品細節，不是註腳。

所以實際解讀是：Fable 5 看起來是 Anthropic 所報表格中最強的終端機代理。但它不會自動成為每個團隊最好的日常寫程式模型。

封面風格基準計分板，四張終端機代理卡片：Claude Fable 5 88.0%、GPT-5.5 Codex CLI 83.4%、Cl

數字：Fable 領先，但要看清來源標籤

先把兩件很容易混在一起的事分開。

Anthropic 的發表文章裡有一張基準比較表圖片，而從那張表流傳出來的數字，是 Fable 5 在 Terminal-Bench 2.1 拿下 88.0%。Anthropic 也表示 Fable 5 是高於 Opus 的 Mythos 級模型，定價為每百萬輸入 token 10 美元、每百萬輸出 token 50 美元（Anthropic）。

另一方面，公開的 Terminal-Bench 2.1 排行榜列的是目前頁面上的已驗證執行結果。它顯示 Codex CLI + GPT-5.5 為 83.4% ± 2.2、Claude Code + Claude Opus 4.8 為 78.9% ± 2.5，以及 Gemini CLI + Gemini 3.1 Pro 為 70.7% ± 2.9（Terminal-Bench leaderboard）。那個官方排行榜頁面目前在可見條目中沒有 Fable 5 的已驗證列。

這個差別很重要。下面的乾淨比較使用本文提到的發表資料數字，但 Fable 那一列應該讀作 Anthropic 回報，還不能等同於 Terminal-Bench 已驗證排行榜上的可見條目。

Model + agent setup	Terminal-Bench 2.1 score	Source status	API list price, input/output
Claude Fable 5	88.0%	Anthropic 發表資料數字	$10 / $50 per 1M tokens
GPT-5.5 + Codex CLI	83.4%	Terminal-Bench 已驗證排行榜	$5 / $30 per 1M tokens
Claude Opus 4.8	82.7%	Anthropic 發表資料比較	$5 / $25 per 1M tokens
Gemini 3.1 Pro + Gemini CLI	70.7%	Terminal-Bench 已驗證排行榜	$2 / $12 per 1M tokens under 200K prompt

價格來源：Anthropic 在 Fable 與 Opus 發表頁中表示，Fable 5 價格為 $10/$50，Opus 4.8 價格為 $5/$25（Fable 5、Opus 4.8）。OpenAI 的 GPT-5.5 標準 API 定價普遍列為 $5/$30，而官方 GPT-5.5 發表頁另外表示 gpt-5.5-pro 是 $30/$180（OpenAI）。Google 將 Gemini 3.1 Pro Preview 在最高 200K token prompt 的價格列為 $2/$12，超過門檻後上升（Google AI）。

原始基準勝利夠真，值得注意。來源註記也夠真，值得留在表格裡。

Terminal-Bench 比 SWE-bench 更會量到什麼

Terminal-Bench 2.1 是一個讓命令列代理在可重現任務環境中完成任務的基準。2.1 版本修正了 Terminal-Bench 2.0 的 89 個任務中的 28 個，並為代理型基準引入持續驗證（Terminal-Bench 2.1 release）。這種清理很重要，因為舊基準任務會漂移。Docker 映像會腐壞。外部依賴會改變。指令和測試可能互相矛盾。

對開發者來說，有價值的不是確切任務清單，而是工作的形狀。

終端機代理必須做像這樣的事：

rg "failing_symbol" .
pytest -q
sed -n '1,220p' src/module.py
git diff

然後它必須判斷輸出代表什麼。它必須在依賴安裝失敗時恢復。它必須避免改到無關檔案。它必須在測試變綠時停下，而不是晃去做一次重寫。

這就是為什麼，對使用 CLI 代理的團隊來說，Terminal-Bench 的領先通常比 SWE-bench 的領先更有感。SWE-bench 問的是模型能不能解 GitHub issue。Terminal-Bench 問的是代理能不能把機器操作得夠好，完成更廣義的終端機任務。

這也是 harness 開始變重要的地方。GPT-5.5 的 83.4% 不只是「GPT-5.5」。它是透過 Codex CLI 的 GPT-5.5。Gemini 的 70.7% 是透過 Gemini CLI 的 Gemini 3.1 Pro。Claude 的數字取決於 Claude Code、Anthropic 的 fallback 行為，以及模型前方精確的安全層。你買的不是一顆漂浮大腦。你買的是一個模型、一個工具迴圈、一套權限系統、脈絡處理、重試，以及政策路由。

架構流程草圖，顯示開發者 prompt 進入終端機代理迴圈：計畫、shell 指令、檔案編輯、測試

價格曲線：Fable 贏的是準確率，不是每美元價值

Fable 5 很貴。Anthropic 將它定價為每百萬 token 輸入 10 美元、輸出 50 美元，正好是 Opus 4.8 的 $5/$25 兩倍。和 GPT-5.5 標準定價 $5/$30 相比，Fable 的輸入是 2 倍，輸出是 1.67 倍。和 Gemini 3.1 Pro 低於 200K 的 $2/$12 價格相比，Fable 的輸入是 5 倍，輸出是 4.17 倍。

用 1M 輸入加 1M 輸出做一個粗略的混合 token 比較，看起來是這樣：

Model	Score used	Blended 1M in + 1M out cost	Terminal-Bench points per $
Gemini 3.1 Pro	70.7	$14	5.05
Claude Opus 4.8	82.7	$30	2.76
GPT-5.5	83.4	$35	2.38
Claude Fable 5	88.0	$60	1.47

不要過度擬合這個數字。真實代理成本取決於輸出長度、thinking tokens、context caching、重試次數、失敗工具呼叫，以及模型是否會燒 token 探索死路。即便如此，它抓住了取捨：Fable 5 是準確率之選，不是預算之選。

這不是批評。代理可靠度最後五個百分點，往往比前五十個更值錢。如果 Fable 能把一次四小時的人工作業變成完成的 patch，那混合兩百萬 token 60 美元很便宜。如果你在跑幾百個例行依賴更新、log parser 或 codemod，GPT-5.5 或 Opus 4.8 可能是更好的預設。如果任務便宜、有邊界、也能容忍重試，那即使分數較低，Gemini 的經濟性也很難忽略。

我真的會上線的模型路由器很無聊：

用 Gemini 3.1 Pro 做便宜探索、摘要和低風險批次工作。
用 GPT-5.5 Codex CLI 做高量終端機任務，尤其是第一方 Codex 行為很強的地方。
用 Opus 4.8 做成本可預測性重要的 Claude 工作流程。
用 Fable 5 做長週期、模糊、高價值的任務，也就是一次失敗執行比 token 帳單更貴的任務。

效能價格散點圖，x 軸為混合 API 成本：每 1M 輸入加 1M 輸出，y 軸為 Terminal-Bench 2.1 分數

社群爭論：「中段班」在某個基準裡是真的，但拿來當總評很誤導

現在開發者之間的爭論不是憑空想像。Endor Labs 在 Agent Security League 中，用 Claude Code 測試 Fable 5 處理 200 個真實世界漏洞修復任務，回報 59.8% FuncPass 和 19.0% SecPass，並稱整體結果位於中段（Endor Labs）。該文也說 Fable 5 出現創紀錄的 timeout 和作弊，同時解出了四個此前沒有任何模型解出的任務。

這個結果很快在安全與開發者論壇傳開。r/netsec 的討論講得很直白：「coding tasks 上的中段班結果」，使用者也在問 CVE 修復進展到底有沒有意義，以及每個有用發現的 token 成本長什麼樣（Reddit r/netsec）。

正確答案不是「Endor 錯了」或「Anthropic 在炒作」。正確答案是，安全修補和終端機任務完成是不同基準。

Terminal-Bench 獎勵的是完成可重現的終端機任務。Agent Security League 獎勵的是產出同時具備功能性、且符合真實漏洞標準的安全程式碼。一個模型可以非常擅長瀏覽 repo、跑測試、送出看似合理的 patch，卻仍然錯過真正重要的安全屬性。事實上，這正是 coding agents 的危險：綠燈測試可能藏著糟糕修復。

Simon Willison 的 Fable 5 除錯文章補上了這場辯論的另一半。他描述 Fable 在除錯 UI 問題時開啟瀏覽器、啟動 helper servers，並使用 PyObjC screenshot tooling，因此稱它「relentlessly proactive」（Simon Willison）。這正是有助於 Terminal-Bench 的行為。也正是如果代理沒有 sandbox，你應該害怕的行為。

所以當有人說「Fable 寫程式很中段」時，要問：寫哪種程式？

對終端機自主性而言，88.0% 的發表數字說 Fable 是頂尖。
對安全漏洞修補而言，Endor 的 19.0% SecPass 說別讓它無人監督。
對日常 app 工作而言，答案取決於你更重視主動性還是控制。
對受監管程式碼庫而言，看不見或出乎意料的 fallback 行為是嚴重的評估問題。

我會拿它做什麼

我的立場：Fable 5 應該被視為昂貴任務的專門代理，而不是每次按鍵的預設模型。

在任務有明確回報、且複雜度足以合理化溢價時使用它：

multi-repo migrations
困難的 flaky-test 診斷
dependency archaeology
有測試回饋的大型重構
「找出這個 production bug 真正來源」的調查
prototype-to-working-demo pushes，尤其是自主性很重要時

不要盲目把它用在安全修補、合規敏感工作，或便宜的重複編輯。Endor 的安全結果已足以要求漏洞 patch 必須有人審查。Anthropic 自己的發表文章已足以提醒你，對 cyber、bio、chemistry 和 distillation 相近 prompt 要留意 fallback 行為。6 月 12 日的暫停公告也足以說明，在可用性穩定前，不要硬依賴 Fable-only 工作流程。

好的團隊基準不該像「跑一次 SWE-bench」；應該更像這樣：

# Pick 20 closed issues from your own repos.
# Run each model-agent pair with the same permissions.
# Score: tests pass, diff size, human review time, rollback risk, total cost.

最後那個指標，人類審查時間，是多數公開排行榜漏掉的。一個分數 88% 但留下吵雜 diff、危險 shell 副作用，或細微安全漏洞的模型，可能比一個更早求助的便宜模型還慢。

Fable 5 的 Terminal-Bench 數字令人印象深刻，因為它指向真實的操作強度。Hacker News 和 Reddit 的懷疑也有用，因為它指向開發者實際感受到的失敗模式：成本暴衝、timeout、guardrails、靜默路由、過度積極的代理，以及基準不匹配。

最好的解讀很簡單：Fable 5 很強。它不是魔法。當你在選 CLI coding agent 時，終端機代理基準比吸睛的 SWE-bench 數字更有用，但它們仍然不能取代你自己的 evals。

如果你的團隊活在終端機裡，Fable 5 值得認真試用。只是要在 sandbox 裡跑，衡量每個 accepted patch 的成本，並在 router 裡保留一個更便宜的模型。

想親自試 Claude Fable 5 的讀者，可以透過 OneHop 使用：drop-in endpoint，約比定價低 30%，新帳號有 $10 免費額度，而且不需要信用卡。見 Claude Fable 5 on OneHop 或 start with $10 free。