Claude Fable 5 vs Opus 4.8 Fast Mode: mesmo preço por token, trade-off diferente

Anthropic criou sem querer a pergunta mais limpa sobre escolha de modelo em junho de 2026: se Claude Fable 5 custa US$ 10 por milhão de tokens de entrada e US$ 50 por milhão de tokens de saída, e Opus 4.8 Fast Mode também custa US$ 10/US$ 50, qual deles um dev deveria realmente usar?

Isso não é um exercício teórico de planilha. Em 19 de junho, a própria página do Fable da Anthropic diz que “Claude Fable 5 is currently unavailable” e lista preço de US$ 10/M para entrada e US$ 50/M para saída (Anthropic). A página de preços do Claude lista Opus 4.8 a US$ 5/M de entrada e US$ 25/M de saída, depois diz que o Fast Mode entrega “até 2,5x mais velocidade” por 2x o preço padrão (Claude pricing). Faça a conta: Opus 4.8 Fast Mode cai exatamente na mesma tarifa por token do Fable 5.

Isso deixa a decisão mais afiada. Fable é o modelo mais ambicioso. Opus 4.8 Fast Mode é o modelo em torno do qual você consegue projetar quando latência importa e acesso não pode ser uma incógnita.

Um gráfico horizontal de preço/performance comparando Fable 5, Opus 4.8 padrão e Opus 4.8 Fast Mode; o eixo x mostra saída listada

A Tabela de Preços Que Muda a Escolha

Esta é a tabela pé no chão pela qual devs deveriam começar:

Modelo	Disponibilidade em 19 de junho de 2026	Entrada	Saída	Contexto / saída	Nota de velocidade	Melhor uso
Claude Fable 5	Atualmente indisponível	US$ 10/MTok	US$ 50/MTok	Contexto de 1M, até 128k de saída	Feito para trabalho agêntico de longa duração	Projetos difíceis, ambíguos e em múltiplas etapas
Claude Opus 4.8	Disponível	US$ 5/MTok	US$ 25/MTok	Contexto de 1M no preço padrão	Velocidade padrão	Coding complexo, agentes enterprise
Claude Opus 4.8 Fast Mode	Preview de pesquisa / uso extra no Claude Code	US$ 10/MTok	US$ 50/MTok	Mesmas regras de contexto da tarifa do Opus 4.8	Saída até 2,5x mais rápida	Loops de agente sensíveis à latência

As especificações do Fable vêm da documentação de API da Anthropic: Fable 5 tem janela de contexto de 1M de tokens por padrão, suporta até 128k tokens de saída por requisição e custa US$ 10/US$ 50 (Claude API docs). A mesma documentação diz que adaptive thinking está sempre ligado no Fable e no Mythos, e que thinking: {"type": "disabled"} não é suportado.

Esse último ponto importa. Fable não é só “Opus, mas mais inteligente”. Ele tem outro perfil operacional: mais autônomo, mais autocritico, muitas vezes trabalhando por mais tempo. A Anthropic o descreve como feito para “trabalho ambicioso, assíncrono e de longa duração” e diz que ele consegue trabalhar por dias em harnesses de agentes (Anthropic Fable page). Isso é exatamente o oposto do que você quer se o seu produto depende de turnos interativos apertados.

Opus 4.8 Fast Mode é o substituto mais limpo quando o gargalo é tempo de relógio. A página de Fast Mode da Anthropic diz que Opus 4.8 Fast Mode é uma configuração de alta velocidade com tokens de saída 2,5x mais rápidos e “a mesma inteligência de modelo no nível Opus” (Claude Fast Mode). A documentação de preços da API lista Fast Mode Opus 4.8 a US$ 10/M de entrada e US$ 50/M de saída (Claude API pricing).

Mesmo preço por token. Aposta diferente.

O Que a Comunidade Está Discutindo de Verdade

A thread do Hacker News sobre o lançamento do Fable foi menos sobre “ele é inteligente?” e mais sobre quanta agência devs querem de um modelo que consegue tomar iniciativa. A discussão de lançamento vale a leitura porque enquadra a tensão central: proatividade parece mágica quando o modelo conserta aquilo que você esqueceu; parece cara ou perigosa quando ele decide ampliar o escopo sem permissão (Hacker News).

No Reddit, a conversa foi mais prática. Um post de benchmark no r/ClaudeAI rodou 200 sessões headless de claude -p e relatou que o Fable 5 pareceu 2–3x mais caro que o Opus 4.8 no uso bruto, embora o preço de tabela seja exatamente 2x. O mesmo post encontrou um resultado curioso de direcionamento: Opus 4.6 fez 88/90 na métrica de seguir instruções, Fable 5 fez 83/90, e Opus 4.8 fez 80/90 (Reddit). Trate isso como o harness de uma pessoa, não como benchmark universal, mas o padrão combina com o que muitos builders de agentes estão vendo: custo não é só a tabela de preços. É também tamanho da saída, retries, chamadas de ferramenta e se o modelo planeja demais.

Outra comparação no Reddit, com 917 cenários de agente de coding, reportou Fable 5 com 92,9 no geral e cerca de US$ 1,25 por tarefa, contra Opus 4.8 com 92,0 e cerca de US$ 0,74 por tarefa. Isso é um ganho de 0,9 ponto por um prêmio de custo por tarefa de aproximadamente 73% nesse benchmark (Reddit). A parte útil não é a nota exata. A parte útil é o formato da troca: Fable pode vencer em tarefas difíceis, mas o prêmio só se paga se essas tarefas estiverem realmente falhando ou exigindo turnos demais no Opus.

Também existe uma frustração operacional real. Fable foi lançado em 9 de junho, então a Anthropic publicou em 12 de junho que estava suspendendo o acesso ao Fable 5 e ao Mythos 5 após uma diretriz de controle de exportação do governo dos EUA (Anthropic statement). É por isso que “é só esperar o Fable” não é um plano se você está lançando um agente de coding esta semana.

Um diagrama de família de modelos mostrando Sonnet e Haiku na base, Opus 4.8 acima deles, e Opus 4.8 Fast Mode como uma opção otimizada para velocidade

Use Opus 4.8 Fast Mode Quando Latência É o Produto

Se você está construindo um agente de IDE, bot de correção de CI, ferramenta de automação de browser ou assistente de code review ao vivo, latência não é métrica de vaidade. Ela muda como usuários se comportam.

Um agente lento faz devs agruparem pedidos, mudarem de aba ou pararem de confiar no loop. Um agente mais rápido consegue pedir confirmação, rodar um teste, aplicar patch em um arquivo e transmitir progresso sem fazer a sessão parecer morta. Para esses fluxos, Opus 4.8 Fast Mode é o melhor padrão com preço por token equivalente ao Fable.

Use Opus 4.8 Fast Mode quando:

A tarefa é interativa. Exemplos: “corrija este teste falhando”, “explique este stack trace”, “edite este componente”, “gere uma migration e rode”.
Você já tem um bom harness. Se seu agente tem busca no repo, execução de testes, revisão de patch e rollback, talvez você precise mais de turnos rápidos do que de um modelo-base mais autônomo.
Você precisa de roteamento previsível. Os classificadores de segurança do Fable podem recusar certas requisições, e a Anthropic diz que pedidos sinalizados de cibersegurança, biologia, química ou destilação podem ser roteados para fora do Fable e cair no Opus 4.8 (Anthropic launch post). É um desenho de segurança sensato, mas é mais uma ramificação no seu caminho de produção.
Seu agente tem prazos de progresso visíveis para o usuário. A promessa explícita do Fast Mode é velocidade. A promessa do Fable é ambição.

O caso de uso matador para Opus 4.8 Fast Mode é o loop interno do agente:

claude -p "Run the failing test, patch the smallest fix, rerun only that test, and summarize the diff."

Esse trabalho não precisa de dias de autonomia. Ele precisa ler, editar, testar e reportar rápido. Pagar o preço do Fable por um Opus com saída mais rápida faz sentido aí.

Use Fable 5 Quando a Parte Difícil É Direcionamento, Não Velocidade

Fable ainda é o modelo que eu escolheria para projetos bagunçados que não cabem em um turno de coding de 90 segundos. A Anthropic diz que a vantagem do Fable cresce com tarefas mais longas e complexas, e descreve pontos fortes em engenharia de software, trabalho de conhecimento, visão, memória e pesquisa científica (Anthropic launch post). A documentação também diz que ele foi feito para raciocínio exigente e trabalho agêntico de longo horizonte (Claude API docs).

Use Fable 5 quando:

Você pode rodar de forma assíncrona. Enfileire o job, transmita status, deixe ele trabalhar.
A tarefa tem decomposição pouco clara. Exemplos: migração grande, refactor multi-repo, do design à implementação, investigação de benchmark, síntese de pesquisa.
Você quer que o modelo verifique o próprio trabalho. O posicionamento do Fable é mais “agente sênior” do que “assistente rápido”.
Menos turnos valem mais do que turnos mais rápidos. Se o Fable poupa três rodadas de direcionamento humano, a mesma tarifa de US$ 10/US$ 50 por token do Opus Fast pode sair barata.

O porém é o acesso. As páginas públicas atuais da Anthropic dizem que o Fable está indisponível. A arquitetura de fallback limpa é fazer do Fable uma rota opcional de topo, não a única rota:

interactive task -> Opus 4.8 Fast Mode
routine batch task -> Opus 4.8 standard or Sonnet
hard async task -> Fable 5 when available
flagged / refused Fable request -> Opus 4.8 fallback

É aqui também que OneHop entra naturalmente. Se o seu bloqueio é testar o Fable sem reconstruir sua camada de provedores, OneHop lista anthropic/claude-fable-5 como endpoint de modelo, marca como temporariamente indisponível e mostra US$ 10 de crédito grátis para novas contas sem exigir cartão (OneHop). A página que eu conferi lista suporte a Anthropic Messages em https://api.onehop.ai/anthropic e mostra preço com desconto em relação à lista oficial de US$ 10/US$ 50.

from anthropic import Anthropic

client = Anthropic(
    base_url="https://api.onehop.ai/anthropic",
    api_key="<ONEHOP_KEY>",
)

message = client.messages.create(
    model="anthropic/claude-fable-5",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Plan a safe, staged migration from Jest to Vitest."}],
)

print(message.content[0].text)

Se sua integração é compatível com OpenAI e sua conta OneHop está configurada para o gateway /v1, o padrão de migração segue a mesma ideia: mude a base URL para https://api.onehop.ai/v1, mantenha o roteamento de modelos fora da lógica de negócio e troque IDs de modelo por configuração. Para o Fable especificamente, verifique o protocolo suportado na página ativa do modelo na OneHop antes de fazer deploy.

Um esboço de fluxo de arquitetura de um roteador de agente de coding: a requisição do usuário entra em um classificador e se ramifica para Opus 4.8 Fast Mode

A Recomendação

Não substitua Opus 4.8 por Fable 5 globalmente. Essa é a versão cara e frágil da migração.

Para agentes de coding sensíveis à latência, use Opus 4.8 Fast Mode como substituto com preço de Fable. Ele tem o mesmo preço por token, a promessa de velocidade é explícita e você evita depender de um modelo que está indisponível no momento. Adicione Fable 5 como caminho de escalonamento assíncrono quando o acesso voltar.

Para trabalho autônomo de longa duração, espere o acesso ao Fable ou teste por uma rota de provedor quando ele estiver no ar. O argumento a favor do Fable não é “mesmo preço do Opus Fast”. O argumento é “menos turnos de direcionamento em trabalhos que o Opus ainda tem dificuldade de concluir”. Se suas tarefas já são resolvidas pelo Opus 4.8, Fast Mode compra uma experiência de usuário melhor. Se suas tarefas falham porque o modelo não consegue sustentar o plano inteiro, Fable é o que vale pagar.

Minha regra padrão de roteamento é simples:

Lance com Opus 4.8 Fast Mode para loops de coding ao vivo.
Mantenha Opus 4.8 padrão para jobs em background com custo controlado.
Roteie apenas as tarefas assíncronas mais difíceis para Fable 5 quando ele estiver disponível.
Meça custo por tarefa, não preço por token.

Se você quer um jeito de baixo atrito para testar esse roteamento, comece com Claude Fable 5 na OneHop, depois comece com US$ 10 grátis. A ideia não é idolatrar um modelo frontier. A ideia é parar de hardcodar escolhas de modelo no seu agente e tornar o trade-off explícito.