← Todos os artigos
Benchmark

Claude Fable 5 no CursorBench 3.1: 72,9% de precisão em tarefas reais de programação com múltiplos arquivos

A cream editorial cover showing a stylized coding-agent leaderboard as stacked terracotta and charcoal bars, with one ta

Claude Fable 5 não entrou de fininho no ranking. Ele pousou direto no topo.

A página ao vivo do CursorBench 3.1 da Cursor agora coloca o Fable 5 Max em 72,9% com um custo médio de US$ 18,02 por tarefa, à frente do GPT-5.5 Extra High com 64,3% / US$ 4,37 e do Opus 4.8 Max com 63,8% / US$ 7,59 (Cursor). É uma diferença grande de qualidade em um benchmark construído em cima de sessões reais no Cursor, não de quebra-cabeças algorítmicos de brinquedo.

Também é caro. Dolorosamente caro se você roda agentes o dia inteiro.

É por isso que o debate atual sobre Claude Code e Cursor não é “Fable 5 é bom?” O ranking já respondeu isso. A pergunta melhor é: quando uma vantagem de 8 a 9 pontos justifica uma conta 2x a 4x maior?

Minha resposta: Fable 5 é o modelo para o qual você escala, não o modelo que deixa ligado no automático para toda edição. O resultado interessante não é só o Fable 5 Max vencer. É que Fable 5 Medium e Low talvez sejam a história mais prática.

Gráfico de dispersão no estilo da capa intitulado “CursorBench 3.1: pontuação vs custo médio por tarefa”; eixo x de US$ 0 a US$ 20, eixo y de 30% a 75

O Que o CursorBench 3.1 Realmente Mede

A Cursor descreve o CursorBench 3.1 como uma avaliação de “tarefas ambíguas, com múltiplos arquivos, vindas de sessões reais no Cursor”, em que uma pontuação maior é melhor (Cursor). Essa frase importa. A maior parte da frustração de desenvolvedores com agentes de programação não vem de falhas em estilo LeetCode de arquivo único. Vem da bagunça real:

  • entender a estrutura de um repositório
  • decidir quais arquivos importam
  • planejar uma edição que atravessa fronteiras
  • encontrar bugs sem receber direção demais
  • revisar código sem alucinar um problema falso
  • manter contexto vivo tempo suficiente para terminar

O CursorBench 3.1 adicionou problemas focados em compreensão de base de código, descoberta de bugs, planejamento e revisão de código, além de melhorar os critérios de avaliação para algumas tarefas de edição (Cursor). O texto mais longo da Cursor sobre o benchmark diz que a suíte foi feita para separar modelos de fronteira em um momento em que benchmarks públicos estão cada vez mais saturados, e que a Cursor acompanha sinais de produto online junto com notas offline (Cursor blog).

Isso não o torna perfeito. Ainda é a avaliação de um fornecedor, rodada dentro do harness de agente de um produto, com uma distribuição específica de tarefas. A Cursor também avisa que pequenas diferenças de pontuação podem não ser estatisticamente significativas (Cursor). Então, não, você não deve tratar uma diferença de 0,6 ponto como verdade sagrada.

Mas o Fable 5 Max não está vencendo por 0,6 ponto. Ele está à frente do GPT-5.5 Extra High por 8,6 pontos e do Opus 4.8 Max por 9,1 pontos. É grande o bastante para levar a sério.

Aqui está o recorte compacto do ranking que importa para escolhas do dia a dia em agentes de programação:

Modelo / configuraçãoPontuação no CursorBench 3.1Custo méd. / tarefaTokens / tarefaEtapas / tarefa
Fable 5 Max72.9%$18.0263,84276
Fable 5 Extra High72.0%$13.7448,75463
Fable 5 High70.6%$10.8137,17354
Fable 5 Medium69.8%$8.2728,50747
Opus 4.7 Max64.8%$11.0262,98996
GPT-5.5 Extra High64.3%$4.3717,90546
Fable 5 Low64.2%$5.7018,88236
Opus 4.8 Max63.8%$7.5977,37060
Composer 2.563.2%$0.5515,15237

A Cursor diz que o custo médio por tarefa é calculado aplicando o preço publicado de cada modelo por milhão de tokens, incluindo tokens de entrada, leitura de cache, escrita de cache e saída, aos tokens usados em cada tarefa do CursorBench, e depois tirando a média entre as tarefas (Cursor). Esse é o enquadramento certo. Agentes não são precificados por sensação. São precificados pelo quanto leem, reescrevem, tentam de novo e explicam.

O Vencedor É Fable 5. O Vencedor em Valor, Não.

Fable 5 Max vence em pontuação bruta. Sem malabarismo.

Mas a visão de desempenho por dólar é brutal:

Modelo / configuraçãoPontuaçãoCustoPontos de pontuação por US$ 1
Fable 5 Max72.9%$18.024.0
Fable 5 Medium69.8%$8.278.4
GPT-5.5 Extra High64.3%$4.3714.7
Opus 4.8 Max63.8%$7.598.4
Composer 2.563.2%$0.55114.9

A última linha é o motivo de a discussão na comunidade estar pegando fogo. Composer 2.5 não chega perto do Fable 5 Max em qualidade absoluta, mas fica próximo do GPT-5.5 Extra High e do Opus 4.8 Max nesse ranking custando centavos em comparação. Se você roda centenas de tarefas de agente por semana, isso importa mais do que a coroa do ranking.

A conta marginal é mais clara:

Fable 5 Max vs GPT-5.5 Extra High:
+8.6 score points, +$13.65/task
≈ $1.59 per extra score point

Contra o Opus 4.8 Max:

Fable 5 Max vs Opus 4.8 Max:
+9.1 score points, +$10.43/task
≈ $1.15 per extra score point

Para uma migração cabeluda, US$ 10 a US$ 14 a mais é ruído. Se o modelo evita uma tentativa fracassada, ele se pagou. Para uma equipe rodando agentes em segundo plano em todo pull request, atualização de dependência, falha de lint e conserto de teste, esse adicional vira política de orçamento.

A linha mais subestimada é Fable 5 Medium. Ele marca 69,8%, apenas 3,1 pontos atrás do Fable 5 Max, por US$ 8,27 em vez de US$ 18,02. Em outras palavras, o Medium mantém cerca de 96% da pontuação de benchmark do Max por cerca de 46% do custo por tarefa do Max. Se você quer um Fable como padrão, é para essa linha que deve olhar.

Gráfico combinado de barras e linha intitulado “Curva de escala do Fable 5”; quatro barras agrupadas para Low, Medium, High, Max mostrando pontuação, com

O Debate da Comunidade É Mesmo Sobre Queima de Tokens

As threads ao vivo não são sutis. Em uma thread de lançamento no subreddit do Cursor, as primeiras impressões de um usuário foram que o Fable 5 mostrava raciocínio muito detalhado e um plano ambicioso, mas também era “muito lento”, com estranhezas de conectividade esperadas conforme a demanda disparava (Reddit r/cursor). Isso bate com o ranking: Fable 5 Max usa 63.842 tokens por tarefa e 76 etapas por tarefa. Não é um modelo reflexo e leve.

Em uma thread do ClaudeAI sobre o resultado no CursorBench, a reação veio rápido: um comentarista chamou de “não é um benchmark legítimo”, enquanto outro perguntou imediatamente se não havia “nenhuma razão para usar opus então se fable medium é mais barato”, e uma resposta apontou para o Composer 2.5 como “muito barato e bom” (Reddit r/ClaudeAI). Esse é o corte certo: confiança no benchmark, deslocamento do Opus e alternativas baratas-boas-o-suficiente.

Uma thread do ClaudeCode chegou ainda mais perto da questão operacional. O post original notou que Fable 5 Low é mais inteligente e mais barato que Opus 4.8 Max no CursorBench, e os comentários se concentraram em custo por tarefa e eficiência de tokens. Um comentário resumiu bem: para desenvolvedores independentes e freelancers, custo por tarefa e pontuação relativa são os benchmarks importantes, porque produtividade em breve pode ser julgada pelo consumo de tokens (Reddit r/ClaudeCode).

Essa afirmação fecha com a tabela.

Fable 5 Low:

  • 64.2%
  • $5.70
  • 18,882 tokens

Opus 4.8 Max:

  • 63.8%
  • $7.59
  • 77,370 tokens

Então, no CursorBench 3.1, Fable 5 Low fica ligeiramente à frente do Opus 4.8 Max, custa US$ 1,89 a menos por tarefa e usa cerca de 76% menos tokens. Isso não é uma notinha de rodapé. É uma decisão de produto.

Se você ainda usa Opus 4.8 Max como sua configuração “Claude sério” dentro do Cursor, o benchmark diz que você deve testar Fable 5 Low e Medium imediatamente. Não porque todo repositório vá bater com o mix de tarefas da Cursor. Mas porque o ônus da prova mudou de lado.

O Preço da Anthropic Explica o Susto

A Anthropic lançou Claude Fable 5 e Claude Mythos 5 em 9 de junho de 2026, descrevendo modelos da classe Mythos como um nível acima do Opus. No post de lançamento da Anthropic, Fable 5 é o lançamento geral, enquanto Mythos 5 é o mesmo modelo subjacente com algumas salvaguardas removidas para uso restrito com acesso confiável (Anthropic).

O preço da API é simples e alto: US$ 10 por milhão de tokens de entrada e US$ 50 por milhão de tokens de saída tanto para Fable 5 quanto para Mythos 5 (Anthropic). A Anthropic também disse que Fable 5 estava disponível pela Claude API como claude-fable-5, e que o acesso por planos de assinatura seria incluído apenas temporariamente até 22 de junho, a menos que a capacidade permitisse uma extensão (Anthropic).

Esse preço muda como você deve pensar sobre prompts de agentes.

Com modelos baratos, contexto relaxado é tolerável. Você cola coisa demais, pede uma mudança ampla demais, deixa o agente vagar, e a conta é irritante, mas administrável. Com custos no nível do Fable 5 Max, um harness mal desenhado fica visível. Cada arquivo desnecessário, plano repetido, resultado de ferramenta verboso e tentativa de patch fracassada se acumula.

Uma política prática de roteamento fica assim:

default: fast/cheap model for local edits and small bugs
escalate: Fable 5 Medium for ambiguous multi-file work
reserve: Fable 5 Max for high-risk refactors, stuck tasks, and final review
fallback: human review when the agent starts exploring instead of editing

Isso é menos empolgante do que “use o melhor modelo”. Também é assim que equipes evitam acordar com uma conta de tokens parecida com um incidente de cloud.

Diagrama de fluxo simples para escolha de modelo em agente de programação; caixas rotuladas “edição local pequena,” “tarefa ambígua com múltiplos arquivos,

O Benchmark Tem um Asterisco de Disponibilidade

Há uma complicação de atualidade: a semana de lançamento do Fable 5 não ficou tranquila.

Em 12 de junho, a Anthropic publicou uma declaração dizendo que o governo dos EUA havia emitido uma diretriz de controle de exportação para suspender o acesso ao Fable 5 e ao Mythos 5 por estrangeiros, incluindo funcionários estrangeiros da Anthropic; a Anthropic disse que a única forma imediata de cumprir a diretriz era desativar os modelos para todos os clientes (Anthropic). A empresa disse que outros modelos Claude não foram afetados.

Para interpretar o benchmark, isso não apaga o resultado do CursorBench. O ranking continua sendo uma evidência útil sobre a capacidade do modelo no harness de agente da Cursor. Mas, para compras e desenho de workflow, disponibilidade não é nota de rodapé. Se sua equipe padroniza em um modelo que pode desaparecer por capacidade, política ou filtros de segurança, você precisa de um caminho de fallback.

Esse é mais um motivo para não ligar o Fable 5 Max em toda tarefa. A melhor configuração de engenharia é portável entre modelos:

  • prompts que não dependem das manias de um provedor
  • limites de tarefa pequenos o suficiente para um segundo modelo tentar de novo
  • avaliações no seu próprio repositório, não só em rankings públicos
  • logs de custo por tarefa, não só faturas mensais
  • um ponto de escalação humana para diffs perigosos

Benchmarks dizem por onde começar. Seu repositório diz o que mandar para produção.

Minha Leitura: Use Fable 5 Como um Revisor Sênior, Não Como Autocomplete Padrão

Fable 5 Max merece o topo do CursorBench 3.1. Uma pontuação de 72,9% em tarefas ambíguas, com múltiplos arquivos, no Cursor é exatamente o tipo de sinal com que desenvolvedores deveriam se importar. Ele vence GPT-5.5 Extra High e Opus 4.8 Max por margem suficiente para mudar hábitos de seleção de modelos.

Mas a lição errada é “use sempre o Max”.

A lição certa é mais estreita: vale a pena pagar pelo Fable 5 quando a ambiguidade é o gargalo. Migrações de arquitetura, bugs entre arquivos, suítes de teste quebradas sem dono claro, revisões sutis e “preciso que o agente forme um plano antes de tocar no código” são bons encaixes. Edições CRUD rotineiras, correções óbvias de teste, limpeza de formatação e refatorações de um arquivo só, não.

Se você quer o padrão prático a partir deste ranking, comece assim:

  • Composer 2.5 para trabalho rotineiro de agente barato e bom o suficiente.
  • GPT-5.5 Extra High quando quiser uma pontuação forte por custo muito menor que o Fable Max.
  • Fable 5 Medium como candidato sério a modelo de uso diário.
  • Fable 5 Max para escalação, não para ruído de fundo.
  • Teste novamente o Opus 4.8 Max no seu workflow; o CursorBench torna difícil justificá-lo como padrão.

A manchete do Fable 5 é 72,9%. A lição de engenharia é roteamento.

As equipes que vencerem com esses modelos não serão as que sempre escolhem o maior modelo. Serão as que sabem exatamente quando o maior modelo sai barato.

Matriz editorial de “escolha de modelo” com dois eixos, ambiguidade da tarefa de baixa a alta e tolerância a custo de baixa a alta; regiões rotula

Leitores que quiserem testar Claude Fable 5 podem usá-lo pela OneHop: Claude Fable 5 on OneHop, um endpoint drop-in com preço cerca de 30% abaixo da tabela. Novas contas recebem $10 free, sem cartão.

Leitura complementar: Getting started with Claude Fable 5.