Claude Fable 5 vs. Opus 4.8 Fast Mode: Gleicher Token-Preis, anderer Trade-off

Anthropic hat aus Versehen die sauberste Frage zur Modellauswahl im Juni 2026 gebaut: Wenn Claude Fable 5 $10 pro Million Input-Tokens und $50 pro Million Output-Tokens kostet, und Opus 4.8 Fast Mode ebenfalls $10/$50 kostet, welches Modell sollte ein Entwickler dann wirklich laufen lassen?

Das ist keine theoretische Tabellenkalkulationsübung. Stand 19. Juni sagt Anthropic auf der eigenen Fable-Seite: „Claude Fable 5 is currently unavailable“ und nennt Preise von $10/M Input und $50/M Output (Anthropic). Claudes Preisseite listet Opus 4.8 mit $5/M Input und $25/M Output und sagt dann, Fast Mode liefere „up to 2.5x faster speeds“ zum 2-fachen Standardpreis (Claude pricing). Rechne es aus: Opus 4.8 Fast Mode landet beim selben Token-Satz wie Fable 5.

Das macht die Entscheidung schärfer. Fable ist das ambitioniertere Modell. Opus 4.8 Fast Mode ist das Modell, um das man bauen kann, wenn Latenz zählt und Zugriff kein Vielleicht sein darf.

Ein horizontales Preis-Leistungs-Diagramm, das Fable 5, Opus 4.8 Standard und Opus 4.8 Fast Mode vergleicht; die x-Achse ist gelisteter Outp

Die Preistabelle, die die Wahl verändert

Hier ist die bodenständige Tabelle, mit der Entwickler anfangen sollten:

Modell	Verfügbarkeit am 19. Juni 2026	Input	Output	Kontext / Output	Tempo-Hinweis	Beste Eignung
Claude Fable 5	Derzeit nicht verfügbar	$10/MTok	$50/MTok	1M Kontext, bis zu 128k Output	Für lang laufende agentische Arbeit gebaut	Harte, mehrdeutige, mehrstufige Projekte
Claude Opus 4.8	Verfügbar	$5/MTok	$25/MTok	1M Kontext zum Standardpreis	Standardtempo	Komplexes Coding, Enterprise-Agenten
Claude Opus 4.8 Fast Mode	Research Preview / Claude Code Extra-Nutzung	$10/MTok	$50/MTok	Gleiche Kontextregeln wie Opus 4.8	Bis zu 2,5x schnellerer Output	Latenzempfindliche Agent-Loops

Die Fable-Spezifikationen stammen aus Anthropic’s API-Dokumentation: Fable 5 hat standardmäßig ein Kontextfenster von 1M Tokens, unterstützt bis zu 128k Output-Tokens pro Anfrage und kostet $10/$50 (Claude API docs). Dieselben Docs sagen, dass adaptive thinking für Fable und Mythos immer aktiv ist und thinking: {"type": "disabled"} nicht unterstützt wird.

Dieser letzte Punkt zählt. Fable ist nicht einfach „Opus, nur smarter“. Es hat ein anderes Betriebsprofil: autonomer, stärker selbstprüfend, oft länger laufend. Anthropic beschreibt es als gebaut für „ambitious, long-running, asynchronous work“ und sagt, es könne in Agent-Harnesses tagelang arbeiten (Anthropic Fable page). Das ist exakt das Gegenteil von dem, was du willst, wenn dein Produkt von engen interaktiven Turns abhängt.

Opus 4.8 Fast Mode ist der sauberere Ersatz, wenn die Engstelle die verstrichene Zeit ist. Anthropic’s Fast-Mode-Seite sagt, Opus 4.8 Fast Mode sei eine Hochgeschwindigkeits-Konfiguration mit 2,5x schnellerem Output-Token-Tempo und „the same Opus-level model intelligence“ (Claude Fast Mode). Die API-Preisdokumentation listet Fast Mode Opus 4.8 mit $10/M Input und $50/M Output (Claude API pricing).

Gleicher Token-Preis. Andere Wette.

Worüber die Community wirklich streitet

Der Hacker-News-Thread rund um den Fable-Launch drehte sich weniger um „ist es smart?“ und mehr darum, wie viel Eigeninitiative Entwickler einem Modell zugestehen wollen, das von sich aus handeln kann. Die Launch-Diskussion lohnt sich, weil sie die Kernspannung gut rahmt: Proaktivität fühlt sich magisch an, wenn das Modell das repariert, was du vergessen hast; sie fühlt sich teuer oder gefährlich an, wenn es ohne Erlaubnis den Scope erweitert (Hacker News).

Reddit war praktischer. Ein Benchmark-Post in r/ClaudeAI ließ 200 headless claude -p-Sessions laufen und berichtete, Fable 5 wirke in der Rohnutzung 2–3x teurer als Opus 4.8, obwohl der Listenpreis exakt 2x beträgt. Derselbe Post fand ein überraschendes Steering-Ergebnis: Opus 4.6 erzielte 88/90 in seinem Instruction-Following-Maß, Fable 5 erzielte 83/90 und Opus 4.8 erzielte 80/90 (Reddit). Nimm das als Harness eines einzelnen Nutzers, nicht als universellen Benchmark, aber das Muster passt zu dem, was viele Agent-Builder sehen: Kosten sind nicht nur die Preisliste. Es sind auch Output-Länge, Retries, Tool-Calls und die Frage, ob das Modell zu viel plant.

Ein weiterer Reddit-Vergleich über 917 Coding-Agent-Szenarien berichtete Fable 5 mit 92,9 insgesamt und etwa $1,25 pro Task, gegenüber Opus 4.8 mit 92,0 und etwa $0,74 pro Task. Das ist ein Gewinn von 0,9 Punkten für grob 73% Task-Kosten-Aufschlag in diesem Benchmark (Reddit). Der nützliche Teil ist nicht der exakte Score. Der nützliche Teil ist die Form des Trades: Fable kann bei harten Aufgaben gewinnen, aber der Aufpreis rechnet sich nur, wenn diese Aufgaben wirklich scheitern oder auf Opus zu viele Turns brauchen.

Es gibt auch einen echten operativen Frust-Thread. Fable startete am 9. Juni, dann veröffentlichte Anthropic am 12. Juni, dass der Zugriff auf Fable 5 und Mythos 5 nach einer US-Regierungsanweisung zu Exportkontrollen ausgesetzt werde (Anthropic statement). Deshalb ist „wartet einfach auf Fable“ kein Plan, wenn du diese Woche einen Coding-Agenten auslieferst.

Ein Modellfamilien-Diagramm mit Sonnet und Haiku an der Basis, Opus 4.8 darüber und Opus 4.8 Fast Mode als tempooptimierte

Nutze Opus 4.8 Fast Mode, wenn Latenz das Produkt ist

Wenn du einen IDE-Agenten, CI-Reparaturbot, ein Browser-Automation-Tool oder einen Live-Code-Review-Assistenten baust, ist Latenz keine Eitelkeitsmetrik. Sie verändert, wie Nutzer sich verhalten.

Ein langsamer Agent bringt Entwickler dazu, Anfragen zu bündeln, wegzutabben oder dem Loop nicht mehr zu vertrauen. Ein schnellerer Agent kann um Bestätigung bitten, einen Test laufen lassen, eine Datei patchen und Fortschritt streamen, ohne dass sich die Session tot anfühlt. Für diese Workflows ist Opus 4.8 Fast Mode der bessere Default zum Fable-äquivalenten Token-Preis.

Nutze Opus 4.8 Fast Mode, wenn:

Die Aufgabe interaktiv ist. Beispiele: „fix this failing test“, „explain this stack trace“, „edit this component“, „generate a migration and run it.“
Du bereits ein gutes Harness hast. Wenn dein Agent Repo-Suche, Testausführung, Patch-Review und Rollback hat, brauchst du womöglich schnellere Turns stärker als ein autonomeres Basismodell.
Du berechenbares Routing brauchst. Fables Safety-Klassifikatoren können bestimmte Anfragen ablehnen, und Anthropic sagt, markierte Cybersecurity-, Biologie-, Chemie- oder Distillation-Anfragen könnten von Fable weg zu Opus 4.8 geroutet werden (Anthropic launch post). Das ist vernünftiges Safety-Design, aber es ist ein weiterer Zweig in deinem Produktionspfad.
Dein Agent nutzerseitige Fortschrittsdeadlines hat. Das explizite Versprechen von Fast Mode ist Tempo. Fables Versprechen ist Ambition.

Der Killer-Use-Case für Opus 4.8 Fast Mode ist der innere Agent-Loop:

claude -p "Run the failing test, patch the smallest fix, rerun only that test, and summarize the diff."

Dieser Job braucht keine tagelange Autonomie. Er braucht schnelles Lesen, Editieren, Testen, Berichten. Dafür Fables Preis für Opus mit schnellerem Output zu zahlen, ist rational.

Nutze Fable 5, wenn Steuerung das harte Problem ist, nicht Tempo

Fable ist weiterhin das Modell, das ich für die chaotischen Projekte haben möchte, die nicht in einen 90-Sekunden-Coding-Turn passen. Anthropic sagt, Fables Vorsprung wachse mit längeren und komplexeren Aufgaben, und beschreibt Stärken in Software Engineering, Wissensarbeit, Vision, Memory und wissenschaftlicher Forschung (Anthropic launch post). Die Docs sagen außerdem, es sei für anspruchsvolles Reasoning und agentische Arbeit mit langem Horizont gebaut (Claude API docs).

Nutze Fable 5, wenn:

Du asynchron arbeiten kannst. Stelle den Job in eine Queue, streame Status, lass es arbeiten.
Die Aufgabe unklar zerlegbar ist. Beispiele: große Migration, Multi-Repo-Refactor, Design-to-Implementation, Benchmark-Untersuchung, Research-Synthese.
Du willst, dass das Modell seine eigene Arbeit prüft. Fables Positionierung ist eher „Senior Agent“ als „schneller Assistent“.
Weniger Turns mehr wert sind als schnellere Turns. Wenn Fable drei menschliche Steering-Runden spart, kann derselbe $10/$50-Token-Satz wie bei Opus Fast plötzlich günstig sein.

Der Haken ist der Zugriff. Anthropic’s aktuelle öffentliche Seiten sagen, Fable sei nicht verfügbar. Die saubere Fallback-Architektur ist, Fable zu einer optionalen Top-Tier-Route zu machen, nicht zur einzigen Route:

interactive task -> Opus 4.8 Fast Mode
routine batch task -> Opus 4.8 standard or Sonnet
hard async task -> Fable 5 when available
flagged / refused Fable request -> Opus 4.8 fallback

Hier passt auch OneHop natürlich hinein. Wenn dein Blocker ist, Fable zu testen, ohne deine Provider-Schicht umzubauen, listet OneHop anthropic/claude-fable-5 als Model-Endpoint, markiert es als vorübergehend nicht verfügbar und zeigt $10 Gratisguthaben für neue Accounts ohne erforderliche Karte (OneHop). Die Seite, die ich geprüft habe, listet Anthropic Messages Support unter https://api.onehop.ai/anthropic und zeigt rabattierte Preise gegenüber der offiziellen $10/$50-Liste.

from anthropic import Anthropic

client = Anthropic(
    base_url="https://api.onehop.ai/anthropic",
    api_key="<ONEHOP_KEY>",
)

message = client.messages.create(
    model="anthropic/claude-fable-5",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Plan a safe, staged migration from Jest to Vitest."}],
)

print(message.content[0].text)

Wenn deine Integration OpenAI-kompatibel ist und dein OneHop-Account für das /v1-Gateway konfiguriert ist, ist das Migrationsmuster dieselbe Idee: Ändere die base URL auf https://api.onehop.ai/v1, halte Model-Routing aus deiner Business-Logik heraus und tausche Model-IDs über Config. Für Fable konkret: Prüfe vor dem Deployment das unterstützte Protokoll auf der aktuellen OneHop-Modellseite.

Eine Architektur-Fluss-Skizze eines Coding-Agent-Routers: Nutzeranfrage geht in einen Klassifikator, verzweigt zu Opus 4.8 Fast Mode f

Die Empfehlung

Ersetze Opus 4.8 nicht global durch Fable 5. Das ist die teure, fragile Version der Migration.

Für latenzempfindliche Coding-Agenten: Nutze Opus 4.8 Fast Mode als Fable-preisigen Ersatz. Er hat denselben Token-Preis, das Tempo-Versprechen ist explizit, und du vermeidest die Abhängigkeit von einem Modell, das aktuell nicht verfügbar ist. Ergänze Fable 5 als asynchronen Eskalationspfad, sobald der Zugriff zurückkommt.

Für lang laufende autonome Arbeit: Warte auf Fable-Zugriff oder teste es über eine Provider-Route, sobald es live ist. Das Argument für Fable ist nicht „gleicher Preis wie Opus Fast“. Das Argument ist „weniger Steering-Turns bei Arbeit, die Opus noch immer schwer vollständig schafft“. Wenn deine Aufgaben bereits von Opus 4.8 gelöst werden, kauft Fast Mode eine bessere User Experience. Wenn deine Aufgaben scheitern, weil das Modell den ganzen Plan nicht halten kann, ist Fable das Modell, für das sich Bezahlen lohnt.

Meine Default-Routing-Regel ist simpel:

Shippe mit Opus 4.8 Fast Mode für Live-Coding-Loops.
Behalte Opus 4.8 Standard für kostenkontrollierte Background-Jobs.
Route nur die härtesten asynchronen Aufgaben zu Fable 5, wenn es verfügbar ist.
Miss Task-Kosten, nicht Token-Preis.

Wenn du eine reibungsarme Möglichkeit willst, dieses Routing zu testen, starte mit Claude Fable 5 on OneHop, dann start with $10 free. Es geht nicht darum, ein Frontier-Modell anzubeten. Es geht darum, Model-Entscheidungen nicht hart in deinen Agenten zu codieren und den Trade-off explizit zu machen.