← Все статьи
Compare

Claude Opus 4.8 Fast Mode против GPT-5.5 Codex Fast Mode для кодинга, упирающегося в задержки

A split-screen developer workstation illustration comparing two model lanes: Claude Opus 4.8 Fast Mode on one side and G

Anthropic сделала проблему цены заметно острее 28 мая 2026 года: Claude Opus 4.8 Fast Mode теперь работает до 2.5× быстрее и стоит $10 за миллион входных токенов и $50 за миллион выходных токенов (Anthropic). OpenAI ответила с другой стороны: GPT-5.5 в Codex Fast Mode генерирует токены в 1.5× быстрее за 2.5× стоимости, а цена API — $5 за вход и $30 за выход за миллион токенов, плюс в API появится контекстное окно на 1M (OpenAI).

Это звучит как арифметика вендоров, пока ты не сидишь в IDE и не ждёшь, когда агент закончит третью неудачную попытку патча. В этот момент задержка — уже не сноска в бенчмарке. Это разница между тем, чтобы остаться в потоке, и тем, чтобы открыть Slack.

Мой вывод: для кодинга, упирающегося в задержки, Opus 4.8 Fast Mode — более чистая покупка скорости. GPT-5.5 — лучший дефолт, когда нужна более низкая стоимость выхода, сильная работа в терминале и более плотный цикл Codex. Если ваш агент большую часть времени читает, планирует и вызывает инструменты, не покупайте скорость вслепую. Сначала почините сам цикл.

Сравнительный график в стиле обложки: ось x подписана как эффективный множитель скорости вывода, ось y — цена выхода за

Настоящая таблица сравнения

Вот таблица выбора, которой я бы реально пользовался перед маршрутизацией кодингового трафика.

OptionPublished speed claimInput priceOutput priceContextBest fit
Claude Opus 4.8baseline$5/M$25/M1M в документации Claudeаккуратный агентный кодинг, длинный контекст репозитория
Claude Opus 4.8 Fast Modeдо 2.5× скорости$10/M$50/Mполный контекст; Fast применяется ко всему окнузадержка, когда человек ждёт в цикле
GPT-5.5 APIbaseline$5/M$30/Mобъявлено окно API на 1Mобщий кодинг, более низкая цена выхода, чем у Opus Fast
GPT-5.5 Codex Fast Mode1.5× генерации токенов2.5× стоимости Codex2.5× стоимости Codex400K в Codexбыстрые сессии Codex, где важен UX
GPT-5.5 API Priority-style mathболее быстрый тариф$12.50/M$75/Mобъявлено окно API на 1Mпродакшен-вызовы, где важна задержка очереди

В документации Anthropic по ценам есть две детали, которые разработчики часто пропускают. Во-первых, Fast Mode всё ещё находится в research preview. Во-вторых, он применяется “across the full context window”, включая запросы больше 200K токенов (Anthropic docs). В тех же документах сказано, что Claude Opus 4.8, Opus 4.7, Opus 4.6, Fable 5 и модели класса Mythos включают полный 1M-токенный контекст по стандартной цене.

Публичная страница цен OpenAI указывает GPT-5.5 по $5/M за вход, $0.50/M за кэшированный вход и $30/M за выход (OpenAI pricing). В релизном посте сказано, что Codex получает GPT-5.5 с контекстным окном 400K и Fast Mode с 1.5× скоростью генерации за 2.5× стоимости. История с API отдельная: GPT-5.5 “soon” станет доступна в Responses и Chat Completions с контекстным окном 1M.

Это разделение важно. Codex Fast Mode — решение на уровне режима продукта. Цены GPT-5.5 API — решение на уровне счётчика токенов. Не смешивайте их в одной таблице, если не подписали строки.

Почему разработчики жалуются

Жалоба на Reddit довольно прямолинейная. Тред с названием “Why is Opus 4.8 so slow?” говорит, что модель ощущается деградировавшей и медленной, а один комментатор описывает замедление как способ монетизировать Fast Mode (Reddit). Другой тред в r/ClaudeCode называет Opus 4.8 “smart, but careful and slow”, а пользователи спорят, не являются ли настоящей причиной настройки высокого усилия (Reddit). Отдельный тред про time-to-first-token говорит, что сравнение с Codex — это “night and day” по ощущаемой отзывчивости (Reddit).

Сообщество смешивает четыре разные проблемы:

  1. Time to first token.
  2. Выходные токены в секунду.
  3. Скрытое рассуждение или время усилия.
  4. Потери в цикле инструментов: повторное чтение файлов, лишние вызовы shell, чрезмерное планирование.

Fast Mode в основном бьёт по второй категории. Он может помочь первой, если дело в серверной ёмкости, но публичное обещание — это скорость вывода. Если ваш агент 80 секунд думает, читает файлы и повторяет сломанные команды, прежде чем напечатать 300 токенов, платить за более быстрый вывод — слабое лекарство.

Собственная заметка Anthropic о запуске на это намекает. Opus 4.8 по умолчанию работает с высоким усилием, а режимы с более высоким усилием тратят больше времени на размышления ради лучшего результата. Anthropic рекомендует дополнительное усилие для сложных задач и долгих асинхронных рабочих процессов (Anthropic). Это разумно для миграций репозитория. И мучительно для “переименуй этот prop и обнови тесты”.

Диаграмма стека задержки кодинговых агентов из четырёх этапов: очередь/TTFT, усилие рассуждения, вызовы инструментов, стриминг токенов; показано, ч

Когда платить за скорость рационально

Используйте простое правило: покупайте Fast Mode только тогда, когда человек заблокирован, а генерируемый вывод достаточно большой, чтобы стриминг токенов доминировал.

Допустим, кодинговый ответ выдаёт 2,000 выходных токенов. Если стандартный Opus стримит этот вывод 100 секунд, а Fast Mode приближается к заявленным 2.5×, время стриминга падает примерно до 40 секунд. Вы откупили назад одну минуту. По ценам Opus 4.8 выходная часть ответа растёт с $0.05 до $0.10. Это легко оправдать, когда ждёт senior-разработчик.

Теперь изменим нагрузку. Модель 70 секунд читает файлы и планирует, затем стримит 400 токенов за 20 секунд. Улучшение стриминга в 2.5× экономит примерно 12 секунд, а не 60. Вы всё равно платите вдвое. Отсюда и раздражение на Reddit: люди чувствуют весь счёт за задержку, но платная функция скорости может покрывать только его часть.

GPT-5.5 Codex Fast Mode устроен иначе. Опубликованный множитель меньше: генерация в 1.5× быстрее за 2.5× стоимости в Codex (OpenAI). Это не выглядит привлекательно, если вы оптимизируете чистые доллары за стриминговый токен. Но это всё ещё может иметь смысл, если у Codex лучше TTFT, меньше зависаний на инструментах или более плотный цикл edit-test для вашего проекта. Модель, которая на бумаге медленнее, может ощущаться быстрее, если обвязка лучше.

Для кодинга, упирающегося в задержки, измеряйте wall-clock время задачи, а не токены в секунду. Метрика должна быть такой:

time_from_prompt_to_accepted_patch = planning + tool_calls + streaming + test_fix_retries

Если Fast Mode улучшает только один член суммы, это не весь ответ.

Используйте Opus 4.8 Fast, когда…

Выбирайте Claude Opus 4.8 Fast Mode, когда задаче нужно суждение в стиле Opus, а вы сидите и ждёте.

Хорошие примеры:

  • Ревью рискованной миграции базы данных перед merge.
  • Рефакторинг большой поверхности TypeScript, где важна консистентность стиля.
  • Просьба к агенту изучить несколько файлов, предложить план, затем применить его.
  • Отладка продакшен-поведения, где уверенный неправильный патч стоит дороже токенов.
  • Интерактивное парное программирование, когда вы читаете ответ прямо во время стриминга.

Anthropic утверждает, что Opus 4.8 примерно в четыре раза реже, чем предшественник, пропускает без комментариев недостатки в коде, который сам написал (Anthropic). Вот это важное заявление о качестве для кодинга. Fast Mode не делает небрежную модель аккуратной. Он делает аккуратную модель менее раздражающей в использовании.

Цена — вот подвох. При $50/M за выход Opus 4.8 Fast дорог для многословных агентных трасс, сгенерированной документации и повторных неудачных патчей. Его стоит сочетать с жёстким контролем в обвязке: маленькие diff, короткие ответы, кэшированные сводки репозитория и строгое правило, что модель обязана сначала посмотреть, а потом редактировать.

Если вы маршрутизируете через агрегатор, проверьте реальный протокол и доступность перед запуском. Страница OneHop для Claude Fable 5 сейчас указывает официальную цену $10/M за вход и $50/M за выход, скидочную цену OneHop $3/M и $15/M, $10 бесплатного кредита для новых аккаунтов и Anthropic Messages endpoint на https://api.onehop.ai/anthropic; на той же странице модель также помечена как временно недоступная на момент моей проверки (OneHop). Это значит, что безопасный ход — проверить доступность в собственном аккаунте, прежде чем переключать продакшен-трафик.

Реальная форма Anthropic SDK:

from anthropic import Anthropic

client = Anthropic(
    api_key="ONEHOP_KEY",
    base_url="https://api.onehop.ai/anthropic",
)

message = client.messages.create(
    model="anthropic/claude-fable-5",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Review this patch for risky edge cases."}],
)
print(message.content[0].text)

Если Fable 5 доступен в вашем аккаунте, Claude Fable 5 on OneHop стоит протестировать: цена входа низкая, а новые аккаунты могут начать с $10 бесплатно. Просто не считайте доступность гарантированной по карточке с ценой. Вызовите endpoint.

Диаграмма маршрутизации семейства моделей: дешёвая модель по умолчанию для кодинга, цикл GPT-5.5 Codex, Opus 4.8 Fast для заблокированного человека

Используйте GPT-5.5 Codex Fast, когда…

Выбирайте GPT-5.5 Codex Fast Mode, когда живёте внутри Codex и вам важен весь цикл, а не только поток токенов.

В релизном посте OpenAI указано, что GPT-5.5 набирает 82.7% на Terminal-Bench 2.0, по сравнению с 75.1% у GPT-5.4 и 69.4% у Claude Opus 4.7 в таблице OpenAI (OpenAI). К вендорским бенчмаркам нужно относиться осторожно, но Terminal-Bench релевантен для кодинговых агентов: работа в shell, обращение с окружением и циклы исправления — именно там многие “умные” модели теряют время.

GPT-5.5 также дешевле Opus Fast по выходу на стандартных тарифах API: $30/M против $50/M. Если вы генерируете много кода, логов, объяснений и тестового вывода, эта разница накапливается. Контекстное окно API на 1M делает его пригодным для рабочих процессов с большими репозиториями, когда доступ к API станет активным, а окно Codex на 400K уже достаточно велико для многих интерактивных сессий.

Слабый аргумент за GPT-5.5 Fast — чистая экономика скорости. Платить 2.5× за генерацию быстрее в 1.5× — не лучшая сделка, если всё остальное одинаково. Но всё остальное редко одинаково. Codex может победить, потому что чище редактирует, лучше запускает команды или удерживает разработчика в более гладком цикле ревью.

Используйте GPT-5.5 Codex Fast для:

  • Циклов edit-test-fix с большим количеством терминального взаимодействия.
  • Работ, где объём генерируемого вывода высок.
  • Команд, уже стандартизированных на Codex.
  • Задач, где контекста 400K достаточно.
  • Случаев, когда поведение Opus с высоким усилием кажется слишком медленным или слишком осторожным.

Избегайте его, когда задаче нужно максимально сильное долгогоризонтное ревью, которое вы можете получить, или когда надбавка Fast в 2.5× применяется к массовым фоновым задачам. Такие задачи батчите. OpenAI говорит, что Batch и Flex доступны за половину стандартной ставки API, а Priority processing стоит 2.5× стандарта (OpenAI). Это жирный намёк: синхронные пути платят за приоритет; асинхронные — не должны.

Рекомендация

По умолчанию используйте GPT-5.5 для большей части кодингового трафика. Его прайсовая цена API ниже, чем у Opus 4.8 Fast на выходе, у Codex сфокусированный UX для кодинга, а окно API на 1M убирает главную историческую причину отправлять весь длинноконтекстный трафик в Claude.

Эскалируйте в Claude Opus 4.8 Fast, когда человек заблокирован, а качество важнее лишних $20 за миллион выходных токенов относительно стандартного GPT-5.5. Лучший сценарий — не “ускорить каждый кодинговый ответ”. А “получить дорогой, аккуратный ответ до того, как я потеряю контекст”.

Оставьте стандартный Opus 4.8 для асинхронной глубокой работы. Если модель выполняет миграцию кодовой базы, запускает subagents или анализирует сотни тысяч строк, скорость менее важна, чем корректность, кэширование и дисциплина повторных попыток. Функция Dynamic Workflows у Anthropic построена именно для таких крупных задач, включая миграции по сотням тысяч строк, где тесты являются планкой качества (Anthropic).

Используйте маршрутизацию в стиле OneHop как быстрый способ тестирования, а не как повод пропустить измерения. Если хотите попробовать маршрутизацию в более старшие Claude с низким трением при настройке, проверьте Claude Fable 5 on OneHop, подтвердите текущую доступность и начните с $10 бесплатно. Измеряйте принятые патчи на доллар и время от prompt до merge. Это единственный бенчмарк, который будет важен вашей команде и на следующей неделе.

Итоговая матрица решений со строками: человек ждёт, фоновый batch, огромный контекст репозитория, терминалоёмкий цикл и c