Claude Fable 5 vs Opus 4.8 Fast Mode : même prix au token, compromis différents

Anthropic a créé par accident la question de sélection de modèle la plus nette de juin 2026 : si Claude Fable 5 coûte 10 $ par million de tokens d’entrée et 50 $ par million de tokens de sortie, et qu’Opus 4.8 Fast Mode coûte lui aussi 10 $/50 $, lequel un développeur doit-il réellement utiliser ?

Ce n’est pas un exercice théorique dans un tableur. Au 19 juin, la propre page Fable d’Anthropic indique que « Claude Fable 5 is currently unavailable » et affiche un tarif de 10 $/M en entrée et 50 $/M en sortie (Anthropic). La page de tarifs de Claude liste Opus 4.8 à 5 $/M en entrée et 25 $/M en sortie, puis précise que Fast Mode offre des vitesses « jusqu’à 2,5x plus rapides » à 2x le prix standard (tarifs Claude). Faites le calcul : Opus 4.8 Fast Mode arrive au même tarif au token que Fable 5.

Ce qui rend la décision plus tranchante. Fable est le modèle le plus ambitieux. Opus 4.8 Fast Mode est celui autour duquel vous pouvez concevoir un produit quand la latence compte et que l’accès ne peut pas rester un peut-être.

Un graphique horizontal prix/performance comparant Fable 5, Opus 4.8 standard et Opus 4.8 Fast Mode ; l’axe x indique la sortie listée

Le tableau de prix qui change le choix

Voici le tableau concret par lequel les développeurs devraient commencer :

Modèle	Disponibilité au 19 juin 2026	Entrée	Sortie	Contexte / sortie	Note de vitesse	Meilleur usage
Claude Fable 5	Actuellement indisponible	10 $/MTok	50 $/MTok	Contexte 1M, jusqu’à 128k en sortie	Conçu pour du travail agentique long	Projets difficiles, ambigus, en plusieurs étapes
Claude Opus 4.8	Disponible	5 $/MTok	25 $/MTok	Contexte 1M au tarif standard	Vitesse standard	Coding complexe, agents d’entreprise
Claude Opus 4.8 Fast Mode	Research preview / usage supplémentaire Claude Code	10 $/MTok	50 $/MTok	Mêmes règles de contexte qu’Opus 4.8	Jusqu’à 2,5x plus rapide en sortie	Boucles d’agent sensibles à la latence

Les specs de Fable viennent de la doc API d’Anthropic : Fable 5 a une fenêtre de contexte de 1M de tokens par défaut, prend en charge jusqu’à 128k tokens de sortie par requête, et coûte 10 $/50 $ (docs API Claude). Les mêmes docs indiquent que l’adaptive thinking est toujours activé pour Fable et Mythos, et que thinking: {"type": "disabled"} n’est pas pris en charge.

Ce dernier point compte. Fable n’est pas juste « Opus, mais plus intelligent ». Il a un profil opérationnel différent : plus autonome, plus porté sur l’auto-vérification, souvent sur des durées plus longues. Anthropic le décrit comme conçu pour du « travail ambitieux, long, asynchrone » et dit qu’il peut travailler pendant des jours dans des harnais d’agents (page Fable d’Anthropic). C’est exactement l’inverse de ce que vous voulez si votre produit dépend de tours interactifs serrés.

Opus 4.8 Fast Mode est le substitut le plus propre quand le goulot d’étranglement est le temps réel écoulé. La page Fast Mode d’Anthropic indique qu’Opus 4.8 Fast Mode est une configuration haute vitesse avec des vitesses de tokens de sortie 2,5x plus rapides et « la même intelligence de modèle niveau Opus » (Claude Fast Mode). Les docs de tarification API listent Fast Mode Opus 4.8 à 10 $/M en entrée et 50 $/M en sortie (tarifs API Claude).

Même prix au token. Pari différent.

Ce que la communauté débat vraiment

Le fil Hacker News autour du lancement de Fable parlait moins de « est-ce qu’il est intelligent ? » que du degré d’initiative que les développeurs veulent laisser à un modèle capable de prendre les devants. La discussion de lancement vaut la lecture parce qu’elle pose la tension centrale : la proactivité semble magique quand le modèle corrige ce que vous aviez oublié ; elle semble coûteuse ou dangereuse quand il décide d’élargir le périmètre sans autorisation (Hacker News).

Reddit a été plus pragmatique. Un post de benchmark sur r/ClaudeAI a lancé 200 sessions headless claude -p et rapporté que Fable 5 semblait coûter 2 à 3x plus cher qu’Opus 4.8 en usage brut, même si le prix affiché est exactement 2x. Le même post a trouvé un résultat de pilotage surprenant : Opus 4.6 a obtenu 88/90 sur sa mesure de suivi d’instructions, Fable 5 83/90, et Opus 4.8 80/90 (Reddit). Prenez cela comme le harnais d’un utilisateur, pas comme un benchmark universel, mais le schéma colle à ce que beaucoup de bâtisseurs d’agents observent : le coût n’est pas seulement la grille tarifaire. C’est aussi la longueur des sorties, les relances, les appels d’outils, et le fait que le modèle sur-planifie ou non.

Une autre comparaison Reddit sur 917 scénarios d’agents de coding a donné Fable 5 à 92,9 au global et environ 1,25 $ par tâche, contre Opus 4.8 à 92,0 et environ 0,74 $ par tâche. Soit un gain de 0,9 point pour une prime d’environ 73 % sur le coût par tâche dans ce benchmark (Reddit). La partie utile n’est pas le score exact. La partie utile, c’est la forme du compromis : Fable peut gagner sur les tâches difficiles, mais la prime ne se rembourse que si ces tâches échouent réellement ou prennent trop de tours sur Opus.

Il y a aussi un vrai fil de frustration opérationnelle. Fable a été lancé le 9 juin, puis Anthropic a annoncé le 12 juin qu’il suspendait l’accès à Fable 5 et Mythos 5 après une directive américaine de contrôle des exportations (déclaration d’Anthropic). C’est pour cela que « attendre Fable » n’est pas un plan si vous livrez un agent de coding cette semaine.

Un diagramme de famille de modèles montrant Sonnet et Haiku à la base, Opus 4.8 au-dessus, et Opus 4.8 Fast Mode comme option optimisée pour la vitesse

Utilisez Opus 4.8 Fast Mode quand la latence est le produit

Si vous construisez un agent d’IDE, un bot de réparation CI, un outil d’automatisation de navigateur ou un assistant de revue de code en direct, la latence n’est pas une métrique de vanité. Elle change le comportement des utilisateurs.

Un agent lent pousse les développeurs à regrouper les demandes, changer d’onglet ou arrêter de faire confiance à la boucle. Un agent plus rapide peut demander confirmation, lancer un test, patcher un fichier et streamer sa progression sans donner l’impression que la session est morte. Pour ces workflows, Opus 4.8 Fast Mode est le meilleur défaut au prix au token équivalent à Fable.

Utilisez Opus 4.8 Fast Mode quand :

La tâche est interactive. Exemples : « corrige ce test qui échoue », « explique cette stack trace », « modifie ce composant », « génère une migration et exécute-la ».
Vous avez déjà un bon harnais. Si votre agent dispose de recherche dans le repo, d’exécution de tests, de revue de patch et de rollback, vous avez peut-être davantage besoin de tours plus rapides que d’un modèle de base plus autonome.
Vous avez besoin d’un routage prévisible. Les classifieurs de sécurité de Fable peuvent refuser certaines requêtes, et Anthropic indique que les demandes signalées en cybersécurité, biologie, chimie ou distillation peuvent être routées hors de Fable vers Opus 4.8 (post de lancement d’Anthropic). C’est une conception de sécurité saine, mais c’est une branche de plus dans votre chemin de production.
Votre agent a des échéances de progression visibles par l’utilisateur. La promesse explicite de Fast Mode, c’est la vitesse. Celle de Fable, c’est l’ambition.

Le cas d’usage qui tue pour Opus 4.8 Fast Mode, c’est la boucle interne de l’agent :

claude -p "Run the failing test, patch the smallest fix, rerun only that test, and summarize the diff."

Cette tâche n’a pas besoin de jours d’autonomie. Elle a besoin de lire, modifier, tester, rapporter vite. Payer le prix de Fable pour Opus avec une sortie plus rapide est rationnel ici.

Utilisez Fable 5 quand le problème dur est le pilotage, pas la vitesse

Fable reste le modèle que je voudrais pour les projets désordonnés qui ne rentrent pas dans un tour de coding de 90 secondes. Anthropic dit que l’avance de Fable augmente avec les tâches plus longues et plus complexes, et décrit des forces en ingénierie logicielle, knowledge work, vision, mémoire et recherche scientifique (post de lancement d’Anthropic). Ses docs indiquent aussi qu’il est conçu pour le raisonnement exigeant et le travail agentique à horizon long (docs API Claude).

Utilisez Fable 5 quand :

Vous pouvez travailler en asynchrone. Mettez la tâche en file, streamez le statut, laissez-le travailler.
La décomposition de la tâche est floue. Exemples : grande migration, refactor multi-repo, passage du design à l’implémentation, enquête de benchmark, synthèse de recherche.
Vous voulez que le modèle vérifie son propre travail. Le positionnement de Fable est plus « agent senior » que « assistant rapide ».
Moins de tours vaut plus que des tours plus rapides. Si Fable économise trois cycles de pilotage humain, le même tarif au token de 10 $/50 $ qu’Opus Fast peut devenir bon marché.

Le hic, c’est l’accès. Les pages publiques actuelles d’Anthropic indiquent que Fable est indisponible. L’architecture de fallback propre consiste à faire de Fable une route optionnelle haut de gamme, pas la seule route :

interactive task -> Opus 4.8 Fast Mode
routine batch task -> Opus 4.8 standard or Sonnet
hard async task -> Fable 5 when available
flagged / refused Fable request -> Opus 4.8 fallback

C’est aussi là que OneHop s’intègre naturellement. Si votre blocage est d’essayer Fable sans reconstruire votre couche fournisseur, OneHop liste anthropic/claude-fable-5 comme endpoint de modèle, le marque temporairement indisponible, et affiche 10 $ de crédit gratuit pour les nouveaux comptes sans carte requise (OneHop). La page que j’ai consultée liste la prise en charge d’Anthropic Messages à https://api.onehop.ai/anthropic et affiche un tarif réduit par rapport au prix officiel de 10 $/50 $.

from anthropic import Anthropic

client = Anthropic(
    base_url="https://api.onehop.ai/anthropic",
    api_key="<ONEHOP_KEY>",
)

message = client.messages.create(
    model="anthropic/claude-fable-5",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Plan a safe, staged migration from Jest to Vitest."}],
)

print(message.content[0].text)

Si votre intégration est compatible OpenAI et que votre compte OneHop est configuré pour la passerelle /v1, le schéma de migration est le même : changez la base URL pour https://api.onehop.ai/v1, gardez le routage des modèles hors de votre logique métier, et remplacez les IDs de modèles via la config. Pour Fable en particulier, vérifiez le protocole pris en charge sur la page live du modèle OneHop avant de déployer.

Un croquis de flux d’architecture d’un routeur d’agent de coding : la requête utilisateur entre dans un classifieur, puis bifurque vers Opus 4.8 Fast Mode

La recommandation

Ne remplacez pas Opus 4.8 par Fable 5 partout. C’est la version coûteuse et fragile de la migration.

Pour les agents de coding sensibles à la latence, utilisez Opus 4.8 Fast Mode comme substitut au prix de Fable. Il a le même prix au token, la promesse de vitesse est explicite, et il évite de dépendre d’un modèle actuellement indisponible. Ajoutez Fable 5 comme chemin d’escalade asynchrone quand l’accès reviendra.

Pour le travail autonome long, attendez l’accès à Fable ou testez-le via une route fournisseur une fois qu’il est live. L’argument pour Fable n’est pas « même prix qu’Opus Fast ». L’argument, c’est « moins de tours de pilotage sur du travail qu’Opus peine encore à terminer ». Si vos tâches sont déjà résolues par Opus 4.8, Fast Mode achète une meilleure expérience utilisateur. Si vos tâches échouent parce que le modèle ne tient pas tout le plan, Fable est celui qui mérite d’être payé.

Ma règle de routage par défaut est simple :

Livrez avec Opus 4.8 Fast Mode pour les boucles de coding en direct.
Gardez Opus 4.8 standard pour les jobs d’arrière-plan à coût maîtrisé.
Routez uniquement les tâches asynchrones les plus difficiles vers Fable 5 quand il est disponible.
Mesurez le coût par tâche, pas le prix au token.

Si vous voulez tester ce routage avec peu de friction, commencez avec Claude Fable 5 sur OneHop, puis démarrez avec 10 $ gratuits. Le but n’est pas de vénérer un modèle frontier. Le but est d’arrêter de coder en dur les choix de modèles dans votre agent et de rendre le compromis explicite.