Anthropic повесила на передовую автономность конкретный ценник: Claude Fable 5 в Claude API стоит $10 за миллион входных токенов и $50 за миллион выходных токенов, тогда как Sonnet 4.6 стоит $3/$15, а Opus 4.8 — $5/$25 (Fable, Sonnet, Opus). Вся продуктовая развилка — в этом разбросе.
Если вы отправляете каждый промпт для кодинга в Fable, вы не становитесь “frontier”. Вы просто пропускаете архитектуру.
На 16 июня 2026 года есть еще нюанс с доступностью: на странице Fable у Anthropic сказано, что Fable 5 сейчас недоступен, а Anthropic сообщает, что 12 июня приостановила доступ после директивы правительства США, затрагивающей Fable 5 и Mythos 5 (заявление Anthropic). Это не делает слой маршрутизации менее полезным. Наоборот, делает его срочным. Ваше приложение уже должно уметь деградировать с Fable до Opus или Sonnet, не будя инженера.
В этом гайде мы соберем такой слой: Sonnet по умолчанию, Opus для критичной продакшен-работы, Fable — только для долгих агентных задач, где ценность правильного результата перекрывает счет за токены.

Правило маршрутизации: Fable — специалист, а не вариант по умолчанию
Начните с прямой таблицы.
| Модель | API model ID | Цена входа / выхода | Для чего использовать |
|---|---|---|---|
| Claude Sonnet 4.6 | claude-sonnet-4-6 | $3 / $15 за 1M токенов | рутинный кодинг, ревью, поддержка, извлечение данных, большинство агентов |
| Claude Opus 4.8 | claude-opus-4-8 | $5 / $25 за 1M токенов | код продакшен-уровня, сложные ревью, агентные шаги, где нужно суждение |
| Claude Fable 5 | claude-fable-5 | $10 / $50 за 1M токенов | долгие, ценные агентные задачи с реальной выгодой |
Позиционирование самой Anthropic хорошо ложится на это разделение. Sonnet 4.6 подается как универсальная повседневная модель для кодинга, агентов и профессиональных рабочих процессов, с контекстным окном на 1M токенов, сейчас в API beta (Anthropic Sonnet). Opus 4.8 позиционируется для серьезного кодинга, агентных workflows и критичных enterprise-задач (Anthropic Opus). Fable 5 описывается как модель уровня Mythos для амбициозных, долгих проектов и агентов, которые умеют планировать по этапам, делегировать и проверять собственную работу (Anthropic Fable).
Отсюда получается чистая политика:
- По умолчанию используйте Sonnet. Большинство промптов не заслуживают модель за $50/M выходных токенов.
- Повышайте до Opus, когда ошибка стоит дорого. Думайте о миграциях схем, security-sensitive PR review, финансовом анализе и многофайловых рефакторингах.
- Используйте Fable только когда задача большая, неоднозначная и стоит более высокого счета. Многодневные запуски агентов, модернизация кодовой базы, глубокие исследовательские пакеты и workflows в духе “доведи этот проект до готовности”.
Спор в сообществе в основном крутится вокруг третьей корзины. HN-тред о приостановке Anthropic от 12 июня собрал больше тысячи комментариев, судя по индексированным HN-рекапам, и дискуссия быстро распалась на безопасность, геополитику и вопрос, может ли вообще кто-то позволить себе агентное использование по таким ценам (HN thread, recap reference). Reddit-треды были прямее: разработчики жаловались на прожорливые по токенам сессии Claude Code, лимиты подписок и на то, не загоняет ли $50/M выходных токенов Fable в территорию “только для enterprise” (обсуждение ClaudeCode, обсуждение в сабреддите ChatGPT).
Практический ответ, которого не хватает в большинстве тредов: не спорьте об одной глобально “лучшей модели”. Маршрутизируйте по ожидаемой ценности.
Шаг 1: Используйте OneHop как слой доступа без лишней переделки
Если нужен самый короткий путь, используйте OneHop как provider layer и держите код приложения нейтральным к провайдеру. На странице Fable у OneHop указан anthropic/claude-fable-5, показаны официальные цены рядом с ценами OneHop, и сказано, что новые аккаунты получают $10 бесплатно без карты (OneHop Fable 5). Текущая страница указывает поддержку Anthropic Messages по адресу https://api.onehop.ai/anthropic; используйте его для Anthropic SDK.
Установите SDK:
pip install anthropic
export ONEHOP_API_KEY="your_key_here"
Минимальный вызов:
from anthropic import Anthropic
client = Anthropic(
api_key=os.environ["ONEHOP_API_KEY"],
base_url="https://api.onehop.ai/anthropic",
)
message = client.messages.create(
model="anthropic/claude-fable-5",
max_tokens=1024,
messages=[{"role": "user", "content": "Plan a safe Rails 6 to Rails 8 migration."}],
)
print(message.content[0].text)
Это и есть точка интеграции. Ваш слой маршрутизации должен находиться над ней и решать, какую строку модели отправлять.
Ценность OneHop здесь скучная — в лучшем смысле: один аккаунт, понятная страница модели и смена base URL вместо переписывания приложения. Если Fable на паузе или недоступен, тот же router может направить дорогие задачи в Opus и сохранить продукт живым.
Начните отсюда, если вам просто нужен доступ и кредиты: Claude Fable 5 на OneHop, затем стартуйте с $10 бесплатно.
Шаг 2: Соберите router с учетом бюджета
Вот компактный Python-router, который можно запустить. Он оценивает стоимость запроса, применяет лимит на один вызов, откатывается назад, когда Fable недоступен, и держит Sonnet вариантом по умолчанию.
import os
from dataclasses import dataclass
from anthropic import Anthropic, APIError, RateLimitError
PRICES = {
"sonnet": {"model": "claude-sonnet-4-6", "in": 3.00, "out": 15.00},
"opus": {"model": "claude-opus-4-8", "in": 5.00, "out": 25.00},
"fable": {"model": "anthropic/claude-fable-5", "in": 10.00, "out": 50.00},
}
@dataclass
class Task:
kind: str
prompt: str
max_output_tokens: int = 2000
budget_usd: float = 0.25
high_value: bool = False
long_running: bool = False
production_risk: bool = False
def rough_tokens(text: str) -> int:
return max(1, len(text) // 4)
def estimate_cost_usd(model_key: str, input_tokens: int, output_tokens: int) -> float:
price = PRICES[model_key]
return (input_tokens / 1_000_000 * price["in"]) + (output_tokens / 1_000_000 * price["out"])
def choose_model(task: Task) -> str:
if task.high_value and task.long_running:
return "fable"
if task.production_risk or task.kind in {"migration", "security_review", "architecture"}:
return "opus"
return "sonnet"
def route_with_budget(task: Task) -> list[str]:
first = choose_model(task)
fallbacks = {
"fable": ["fable", "opus", "sonnet"],
"opus": ["opus", "sonnet"],
"sonnet": ["sonnet"],
}[first]
input_tokens = rough_tokens(task.prompt)
return [
key for key in fallbacks
if estimate_cost_usd(key, input_tokens, task.max_output_tokens) <= task.budget_usd
] or ["sonnet"]
def run(task: Task) -> str:
client = Anthropic(
api_key=os.environ["ONEHOP_API_KEY"],
base_url="https://api.onehop.ai/anthropic",
)
last_error = None
for key in route_with_budget(task):
try:
response = client.messages.create(
model=PRICES[key]["model"],
max_tokens=task.max_output_tokens,
messages=[{"role": "user", "content": task.prompt}],
)
return response.content[0].text
except (APIError, RateLimitError) as exc:
last_error = exc
continue
raise RuntimeError(f"All model routes failed: {last_error}")
if __name__ == "__main__":
task = Task(
kind="migration",
prompt="Create a step-by-step plan to migrate a 200k-line Django app from 3.2 to 5.x.",
max_output_tokens=3000,
budget_usd=0.20,
production_risk=True,
)
print(run(task))
Главное здесь не оценщик токенов. Главное — граница политики. Вам нужно место в кодовой базе, где продукт говорит: “Этой задаче разрешено потратить больше, потому что результат важен.”

Шаг 3: Добавьте лимиты, соответствующие реальному поведению агентов
Стоимость агентов скачет. Chat completion легко посчитать. Кодинговый агент может просматривать файлы, вызывать инструменты, переписывать, тестировать, повторять попытки и суммировать. В одном Reddit-треде утверждали, что запуск Fable сжег миллионы токенов за час; считайте это анекдотом, но паттерн вполне реальный: долгие агентные циклы умножают расход токенов через петли (Reddit).
Добавьте три лимита:
- Лимит на вызов: отказывайте или понижайте модель, если оценочная стоимость превышает бюджет запроса.
- Лимит на задачу: останавливайте агента после долларового предела, даже если отдельные вызовы валидны.
- Лимит на пользователя или workspace: не давайте одной команде сжечь общий аккаунт.
Для продакшена храните расход в таблице базы данных с ключами workspace_id, task_id и model. Не полагайтесь только на vendor dashboards. Они нужны для сверки биллинга, а не для живого контроля продукта.
Еще активно используйте prompt caching. Anthropic говорит, что Fable сохраняет существующую скидку 90% на входные токены при prompt caching, а страницы Sonnet и Opus тоже указывают до 90% экономии с prompt caching (Fable, Sonnet, Opus). Кэшируйте стабильные части: карту репозитория, стандарты кодинга, API docs, сводки схем и длинные продуктовые спеки. Не кэшируйте изменчивые инструкции пользователя.
Хороший слой маршрутизации должен логировать эти поля для каждого вызова:
{
"task_kind": "migration",
"chosen_model": "opus",
"fallback_from": "fable",
"estimated_cost_usd": 0.18,
"budget_usd": 0.20,
"input_tokens": 12000,
"max_output_tokens": 3000
}
Такой лог — ваш ответ CFO, staff engineer и пользователю, который спрашивает, почему агент остановился.
Шаг 4: Относитесь к fallback как к поведению продукта
Для Fable нужно планировать два вида fallback.
Первый — обычный инфраструктурный fallback: недоступная модель, rate limit, timeout, проблема провайдера. Текущий статус Fable доказывает, что это важно. Anthropic говорит, что доступ к другим моделям не был затронут директивой от 12 июня (Anthropic), так что хорошее приложение должно продолжать работать через Opus или Sonnet.
Второй — safety fallback. Anthropic говорит, что Fable маршрутизирует часть помеченных запросов по кибербезопасности и биологии в Opus 4.8, и что пользователи не платят цены Fable за перемаршрутизированные запросы (Anthropic Fable). В launch post сказано, что эти safeguards срабатывают в среднем менее чем в 5% сессий, при этом ожидаются некоторые false positives (Anthropic launch).
Не прячьте это от пользователей. Если ваш продукт для security review просит Fable, но получает поведение Opus, UI должен сказать что-то вроде:
“Этот запрос использовал более безопасный fallback-маршрут для помеченной части. Результаты могут быть менее исчерпывающими. Влияние на бюджет было скорректировано.”
Это лучше, чем делать вид, что каждый ответ пришел от одной и той же модели. Это также защищает ваши evals. Если вы бенчмаркаете Fable, но половина тестового набора триггерит fallback, вы измеряете путь классификатора почти так же, как саму модель.

Что отправить в продакшен на этой неделе
Сначала ship router, потом feature flag для Fable.
Для большинства developer products мои рекомендуемые дефолты простые:
- Объяснение кода, небольшие фиксы, тесты, документация: Sonnet 4.6.
- PR review, продакшен-баги, архитектурные решения: Opus 4.8.
- Многочасовая или многодневная агентная работа с понятной бизнес-выгодой: Fable 5, когда доступен, с fallback на Opus.
- Все без жестких границ: никакого Fable, пока пользователь не задаст бюджет.
- Все, что повторяется для множества пользователей: кэшируйте длинный контекст или батчите его.
Смысл не в том, чтобы поклоняться топовой модели. Смысл в том, чтобы тратить frontier-токены там, где они меняют исход.
Fable 5 может быть моделью, о которой на этой неделе спорят на HN. Sonnet все еще должен быть стартовой точкой для большей части продакшен-трафика. Opus — надежная середина. Побеждает скучная реализация: router с жесткими лимитами, честным fallback и логами, достаточно хорошими, чтобы дебажить и качество, и стоимость.
Если хотите быстрее всего протестировать настройку, откройте Claude Fable 5 на OneHop, создайте аккаунт и стартуйте с $10 бесплатно. Затем подключите router выше к одному workflow, а не ко всему продукту. Измеряйте стоимость на принятый результат. Это число важнее любого launch-week benchmark.