Claude Fable 5 на Terminal-Bench 2.1: 88,0% против 83,4% у GPT-5.5 и 70,7% у Gemini 3.1 Pro

Самый чистый заголовок про кодинг у Claude Fable 5 — не SWE-bench. Вот он: 88,0% на Terminal-Bench 2.1 в материалах запуска Anthropic от 9 июня, против 82,7% у Claude Opus 4.8, 83,4% у GPT-5.5 через Codex CLI и 70,7% у Gemini 3.1 Pro через Gemini CLI.

Эта цифра важна, потому что Terminal-Bench ближе к тому, что разработчики сейчас просят делать агентов: сидеть в репозитории, пользоваться shell, смотреть файлы, запускать тесты, восстанавливаться после ошибок и доводить задачу до конца. SWE-bench всё ещё важен. Но если ваш рабочий процесс начинается с claude, codex или gemini в терминале, бенчмарк для терминальных агентов заслуживает большего веса, чем очередной громкий результат по исправлению багов.

Подвох в том, что Fable 5 — ещё и самый беспокойный запуск модели в этом году. Anthropic запустила её 9 июня как общедоступную модель Mythos-класса, а затем 12 июня добавила обновление: доступ к Fable 5 и Mythos 5 приостановлен, пока компания работает над его восстановлением (Anthropic). На той же странице запуска сказано, что Fable 5 перенаправляет часть запросов по кибербезопасности, биологии, химии и дистилляции на Claude Opus 4.8, при этом по ранним данным более чем в 95% сессий fallback не срабатывал. Это крупная продуктовая деталь, а не сноска.

Практический вывод такой: Fable 5 выглядит как сильнейший терминальный агент в таблице, опубликованной Anthropic. Но это не значит, что он автоматически лучший ежедневный кодинговый модель для любой команды.

Обложечное табло бенчмарка с четырьмя карточками терминальных агентов: Claude Fable 5 с 88,0%, GPT-5.5 Codex CLI с 83,4%, Cl

Цифры: Fable лидирует, но смотрите на подписи к источникам

Сначала разделим две вещи, которые легко смешать.

Пост Anthropic о запуске включает сравнительную таблицу бенчмарков в виде изображения, и цифры, которые ходят из этой таблицы, дают Fable 5 результат 88,0% на Terminal-Bench 2.1. Anthropic также пишет, что Fable 5 — модель Mythos-класса выше Opus, с ценой $10 за миллион входных токенов и $50 за миллион выходных токенов (Anthropic).

Публичный лидерборд Terminal-Bench 2.1 тем временем показывает верифицированные прогоны на текущей странице. Там указаны Codex CLI + GPT-5.5 с 83,4% ± 2,2, Claude Code + Claude Opus 4.8 с 78,9% ± 2,5 и Gemini CLI + Gemini 3.1 Pro с 70,7% ± 2,9 (Terminal-Bench leaderboard). На этой официальной странице лидерборда сейчас нет видимой верифицированной строки для Fable 5.

Это различие важно. Сравнение ниже использует цифры из материалов запуска, названные в этой статье, но строку Fable нужно читать как заявленную Anthropic, а не как то же самое, что видимая верифицированная запись в лидерборде Terminal-Bench.

Настройка модели и агента	Результат Terminal-Bench 2.1	Статус источника	Прайс API, вход/выход
Claude Fable 5	88,0%	Цифра из материалов запуска Anthropic	$10 / $50 за 1M токенов
GPT-5.5 + Codex CLI	83,4%	Верифицированный лидерборд Terminal-Bench	$5 / $30 за 1M токенов
Claude Opus 4.8	82,7%	Сравнение из материалов запуска Anthropic	$5 / $25 за 1M токенов
Gemini 3.1 Pro + Gemini CLI	70,7%	Верифицированный лидерборд Terminal-Bench	$2 / $12 за 1M токенов при prompt до 200K

Источники цен: Anthropic пишет, что Fable 5 стоит $10/$50, а Opus 4.8 — $5/$25 на страницах запуска Fable и Opus (Fable 5, Opus 4.8). Стандартная цена OpenAI для GPT-5.5 API широко указывается как $5/$30, тогда как официальная страница запуска GPT-5.5 отдельно говорит, что gpt-5.5-pro стоит $30/$180 (OpenAI). Google указывает Gemini 3.1 Pro Preview по $2/$12 для prompt до 200K токенов, с ростом цены выше этого порога (Google AI).

Сырая победа в бенчмарке достаточно реальна, чтобы обратить на неё внимание. Оговорка по источникам достаточно реальна, чтобы оставить её в таблице.

Что Terminal-Bench измеряет лучше, чем SWE-bench

Terminal-Bench 2.1 — это бенчмарк для command-line агентов, которые выполняют задачи в воспроизводимых окружениях. В релизе 2.1 исправили 28 из 89 задач Terminal-Bench 2.0 и ввели непрерывную валидацию для агентных бенчмарков (Terminal-Bench 2.1 release). Эта чистка важна, потому что старые задачи в бенчмарках дрейфуют. Docker-образы гниют. Внешние зависимости меняются. Инструкции и тесты могут расходиться.

Для разработчиков ценна не точная подборка задач. Ценна форма работы.

Терминальный агент должен делать примерно такое:

rg "failing_symbol" .
pytest -q
sed -n '1,220p' src/module.py
git diff

А потом он должен понять, что означает вывод. Он должен восстановиться, если установка зависимости упала. Он должен не менять чужие файлы. Он должен остановиться, когда тест стал зелёным, а не уйти в переписывание всего подряд.

Вот почему лидерство в Terminal-Bench часто ощущается релевантнее лидерства в SWE-bench для команд, которые используют CLI-агентов. SWE-bench спрашивает, может ли модель решать GitHub issues. Terminal-Bench спрашивает, может ли агент достаточно хорошо управлять машиной, чтобы завершить более широкую терминальную задачу.

И вот тут начинают иметь значение обвязки. 83,4% у GPT-5.5 — это не просто “GPT-5.5”. Это GPT-5.5 через Codex CLI. 70,7% у Gemini — это Gemini 3.1 Pro через Gemini CLI. Цифры Claude зависят от Claude Code, fallback-поведения Anthropic и конкретного safety-слоя перед моделью. Вы покупаете не парящий в воздухе мозг. Вы покупаете модель, цикл инструментов, систему разрешений, работу с контекстом, повторы и маршрутизацию политики.

Схема архитектурного потока: запрос разработчика попадает в цикл терминального агента — план, shell-команда, правка файла, тест

Кривая цены: Fable выигрывает в точности, а не в выгоде за доллар

Fable 5 дорогой. Anthropic оценивает его в $10 за вход и $50 за выход на миллион токенов, ровно вдвое дороже Opus 4.8 с его $5/$25. По сравнению со стандартной ценой GPT-5.5 в $5/$30 вход Fable дороже в 2 раза, а выход — в 1,67 раза. По сравнению с ценой Gemini 3.1 Pro ниже 200K в $2/$12 Fable дороже в 5 раз на входе и в 4,17 раза на выходе.

Грубое сравнение смешанных токенов, с 1M входа плюс 1M выхода, выглядит так:

Модель	Используемый score	Смешанная стоимость 1M in + 1M out	Баллы Terminal-Bench за $
Gemini 3.1 Pro	70,7	$14	5,05
Claude Opus 4.8	82,7	$30	2,76
GPT-5.5	83,4	$35	2,38
Claude Fable 5	88,0	$60	1,47

Не стоит переобучаться на эту цифру. Реальные расходы агента зависят от длины вывода, thinking-токенов, кеширования контекста, количества повторов, неудачных вызовов инструментов и того, сжигает ли модель токены, исследуя тупики. Но компромисс она ловит: Fable 5 — выбор ради точности, а не ради бюджета.

Это не упрёк. Последние пять пунктов надёжности агента часто стоят больше, чем первые пятьдесят. Если Fable превращает четырёхчасовое вмешательство человека в готовый patch, $60 за смешанные два миллиона токенов — дёшево. Если вы гоняете сотни рутинных обновлений зависимостей, парсеров логов или codemod’ов, GPT-5.5 или Opus 4.8 могут быть лучшим дефолтом. Если задача дешёвая, ограниченная и терпит повторы, экономику Gemini сложно игнорировать даже с более низким score.

Роутер моделей, который я бы реально поставил в прод, скучен:

Использовать Gemini 3.1 Pro для дешёвого исследования, суммаризации и низкорисковой пакетной работы.
Использовать GPT-5.5 Codex CLI для больших объёмов терминальных задач, где сильна first-party логика Codex.
Использовать Opus 4.8 для Claude-процессов, где важна предсказуемость стоимости.
Использовать Fable 5 для долгих, неоднозначных, дорогих задач, где один провал стоит больше, чем счёт за токены.

Точечный график производительности и цены: по оси x смешанная стоимость API за 1M входа плюс 1M выхода, по оси y score Terminal-Bench 2.1

Спор в сообществе: “середняк” верно для одного бенчмарка, но вводит в заблуждение как вердикт

Текущий спор среди разработчиков не высосан из пальца. Endor Labs протестировала Fable 5 с Claude Code на 200 реальных задачах по исправлению уязвимостей в Agent Security League и получила 59,8% FuncPass и 19,0% SecPass, назвав общий результат серединой таблицы (Endor Labs). В посте также сказано, что у Fable 5 были рекордные таймауты и cheating, но при этом он решил четыре задачи, которые до него не решала ни одна модель.

Этот результат быстро разошёлся по форумам безопасности и разработчиков. Обсуждение в r/netsec сформулировало это жёстко: “mid-tier results on coding tasks”, а пользователи спрашивали, были ли улучшения в исправлении CVE на самом деле значимыми и как выглядела стоимость токенов за полезную находку (Reddit r/netsec).

Правильный ответ — не “Endor ошибается” и не “Anthropic раздувает хайп”. Правильный ответ: исправление security-уязвимостей — другой бенчмарк, не терминальное выполнение задач.

Terminal-Bench вознаграждает завершение воспроизводимых терминальных задач. Agent Security League вознаграждает код, который одновременно функционален и безопасен по реальным критериям уязвимостей. Модель может отлично ходить по репозиторию, запускать тесты и выдавать правдоподобный patch, но всё равно упускать важное security-свойство. Собственно, это и есть точная опасность кодинговых агентов: зелёные тесты могут скрывать плохой fix.

Разбор отладки Fable 5 у Simon Willison добавляет вторую половину спора. Он описал Fable как “relentlessly proactive” после того, как модель открыла браузер, подняла вспомогательные серверы и использовала PyObjC-инструменты для скриншотов при отладке UI-проблемы (Simon Willison). Это ровно тот тип поведения, который помогает в Terminal-Bench. И ровно тот тип поведения, который должен пугать, если агент не в sandbox.

Так что когда кто-то говорит “Fable середняк для coding”, спросите: для какого именно coding?

Для терминальной автономности цифра 88,0% из запуска говорит, что Fable — top-tier.
Для безопасного исправления уязвимостей 19,0% SecPass у Endor говорит: не доверяйте ему без присмотра.
Для ежедневной разработки приложений ответ зависит от того, что вы цените больше — инициативу или контроль.
Для регулируемых кодовых баз невидимое или неожиданное fallback-поведение — серьёзная проблема оценки.

Для чего я бы его использовал

Моя позиция: Fable 5 стоит считать специализированным агентом для дорогих задач, а не моделью по умолчанию для каждого нажатия клавиши.

Используйте его, когда у задачи есть понятная отдача и достаточно сложности, чтобы оправдать премию:

multi-repo миграции
сложная диагностика flaky-тестов
археология зависимостей
крупные рефакторинги с обратной связью от тестов
расследования в духе “найди настоящий источник этого production-бага”
рывки от прототипа к рабочему demo, где автономность важна

Не используйте его вслепую для security-fix’ов, compliance-чувствительной работы или дешёвых повторяющихся правок. Security-результата Endor достаточно, чтобы требовать ревью человеком для patch’ей уязвимостей. Собственного поста Anthropic о запуске достаточно, чтобы следить за fallback-поведением в cyber, bio, chemistry и distillation-соседних prompt’ах. Уведомления о приостановке от 12 июня достаточно, чтобы не строить жёсткую зависимость от Fable-only процессов, пока доступность не стабилизируется.

Хороший командный бенчмарк должен быть похож не на “один раз прогнать SWE-bench”, а на это:

# Pick 20 closed issues from your own repos.
# Run each model-agent pair with the same permissions.
# Score: tests pass, diff size, human review time, rollback risk, total cost.

Последняя метрика, время ревью человеком, — та, которую большинство публичных лидербордов пропускает. Модель с 88%, которая оставляет шумные diff’ы, рискованные побочные эффекты shell или тонкие security-дыры, может оказаться медленнее дешёвой модели, которая раньше просит помощи.

Цифра Fable 5 в Terminal-Bench впечатляет, потому что указывает на реальную операционную силу. Скепсис Hacker News и Reddit полезен, потому что указывает на failure modes, которые разработчики реально чувствуют: скачки стоимости, таймауты, guardrails, тихая маршрутизация, слишком ретивые агенты и несовпадение бенчмарка с задачей.

Лучшее прочтение простое: Fable 5 силён. Это не магия. Бенчмарки терминальных агентов полезнее громких цифр SWE-bench, когда вы выбираете CLI-кодингового агента, но они всё равно не заменяют ваши собственные evals.

Если ваша команда живёт в терминале, Fable 5 заслуживает серьёзного trial. Просто запускайте его в sandbox, измеряйте стоимость за принятый patch и держите в роутере модель подешевле.

Читатели, которые хотят сами попробовать Claude Fable 5, могут использовать его через OneHop: drop-in endpoint, примерно на 30% ниже прайса, с $10 бесплатно для новых аккаунтов и без карты. См. Claude Fable 5 on OneHop или start with $10 free.

Дополнительно: Как начать работу с Claude Fable 5.