Claude Fable 5 vs Opus 4.8 Fast Mode: mismo precio por token, distinta apuesta

Anthropic planteó sin querer la pregunta de selección de modelos más limpia de junio de 2026: si Claude Fable 5 cuesta 10 dólares por millón de tokens de entrada y 50 dólares por millón de tokens de salida, y Opus 4.8 Fast Mode también cuesta 10/50 dólares, ¿cuál debería usar de verdad un desarrollador?

No es un ejercicio teórico de hoja de cálculo. A 19 de junio, la propia página de Fable de Anthropic dice “Claude Fable 5 is currently unavailable” y lista precios de 10 $/M de entrada y 50 $/M de salida (Anthropic). La página de precios de Claude lista Opus 4.8 a 5 $/M de entrada y 25 $/M de salida, y luego dice que Fast Mode ofrece “velocidades hasta 2,5 veces mayores” al doble del precio estándar (Claude pricing). Haz las cuentas: Opus 4.8 Fast Mode queda en la misma tarifa por token que Fable 5.

Eso vuelve la decisión más afilada. Fable es el modelo más ambicioso. Opus 4.8 Fast Mode es el modelo alrededor del cual puedes diseñar cuando la latencia importa y el acceso no puede ser un “quizá”.

Un gráfico horizontal de precio/rendimiento que compara Fable 5, Opus 4.8 estándar y Opus 4.8 Fast Mode; el eje x muestra la salida listada

La tabla de precios que cambia la elección

Esta es la tabla sólida por la que deberían empezar los desarrolladores:

Modelo	Disponibilidad el 19 de junio de 2026	Entrada	Salida	Contexto / salida	Nota de velocidad	Mejor encaje
Claude Fable 5	Actualmente no disponible	10 $/MTok	50 $/MTok	Contexto de 1M, hasta 128k de salida	Creado para trabajo agéntico de larga duración	Proyectos difíciles, ambiguos y de varias fases
Claude Opus 4.8	Disponible	5 $/MTok	25 $/MTok	Contexto de 1M con precio estándar	Velocidad estándar	Programación compleja, agentes empresariales
Claude Opus 4.8 Fast Mode	Vista previa de investigación / uso extra de Claude Code	10 $/MTok	50 $/MTok	Mismas reglas de contexto que la tarifa de Opus 4.8	Salida hasta 2,5 veces más rápida	Bucles de agentes sensibles a la latencia

Las especificaciones de Fable vienen de la documentación de API de Anthropic: Fable 5 tiene una ventana de contexto de 1M de tokens por defecto, admite hasta 128k tokens de salida por solicitud y cuesta 10/50 dólares (Claude API docs). La misma documentación dice que el pensamiento adaptativo siempre está activado para Fable y Mythos, y que thinking: {"type": "disabled"} no está soportado.

Ese último detalle importa. Fable no es simplemente “Opus pero más listo”. Tiene un perfil operativo distinto: más autónomo, más autoverificador, a menudo más de largo recorrido. Anthropic lo describe como construido para “trabajo ambicioso, de larga duración y asíncrono”, y dice que puede trabajar durante días en arneses de agentes (Anthropic Fable page). Eso es justo lo contrario de lo que quieres si tu producto depende de turnos interactivos ajustados.

Opus 4.8 Fast Mode es el sustituto más limpio cuando el cuello de botella es el tiempo real de espera. La página de Fast Mode de Anthropic dice que Opus 4.8 Fast Mode es una configuración de alta velocidad con velocidades de tokens de salida 2,5 veces más rápidas y “la misma inteligencia de modelo de nivel Opus” (Claude Fast Mode). La documentación de precios de API lista Fast Mode Opus 4.8 a 10 $/M de entrada y 50 $/M de salida (Claude API pricing).

Mismo precio por token. Apuesta distinta.

Lo que la comunidad está discutiendo de verdad

El hilo de Hacker News sobre el lanzamiento de Fable no giraba tanto en torno a “¿es inteligente?” como a cuánta agencia quieren los desarrolladores de un modelo capaz de tomar la iniciativa. Vale la pena leer la conversación del lanzamiento porque enmarca la tensión central: la proactividad parece magia cuando el modelo arregla eso que se te olvidó; parece cara o peligrosa cuando decide ampliar el alcance sin permiso (Hacker News).

Reddit ha sido más práctico. Una publicación de benchmarks en r/ClaudeAI ejecutó 200 sesiones headless de claude -p e informó de que Fable 5 parecía entre 2 y 3 veces más caro que Opus 4.8 en uso real, aunque el precio de lista sea exactamente el doble. La misma publicación encontró un resultado de control sorprendente: Opus 4.6 obtuvo 88/90 en su medida de seguimiento de instrucciones, Fable 5 obtuvo 83/90 y Opus 4.8 obtuvo 80/90 (Reddit). Tómalo como el arnés de un usuario, no como un benchmark universal, pero el patrón encaja con lo que muchos constructores de agentes están viendo: el coste no es solo la tarifa oficial. También es longitud de salida, reintentos, llamadas a herramientas y si el modelo planifica de más.

Otra comparación de Reddit, con 917 escenarios de agentes de programación, reportó Fable 5 con 92,9 global y unos 1,25 dólares por tarea, frente a Opus 4.8 con 92,0 y unos 0,74 dólares por tarea. Eso es una mejora de 0,9 puntos por una prima de coste por tarea de aproximadamente el 73% en ese benchmark (Reddit). Lo útil no es la puntuación exacta. Lo útil es la forma del intercambio: Fable puede ganar en tareas difíciles, pero la prima solo se amortiza si esas tareas realmente están fallando o requieren demasiados turnos con Opus.

También hay una frustración operativa real. Fable se lanzó el 9 de junio, y luego Anthropic publicó el 12 de junio que suspendía el acceso a Fable 5 y Mythos 5 tras una directiva de control de exportaciones del gobierno de EE. UU. (Anthropic statement). Por eso “esperar a Fable” no es un plan si estás lanzando un agente de programación esta semana.

Un diagrama de familias de modelos que muestra Sonnet y Haiku en la base, Opus 4.8 por encima, y Opus 4.8 Fast Mode como opción optimizada para velocidad

Usa Opus 4.8 Fast Mode cuando la latencia es el producto

Si estás creando un agente para IDE, un bot de reparación de CI, una herramienta de automatización de navegador o un asistente de revisión de código en vivo, la latencia no es una métrica de vanidad. Cambia cómo se comportan los usuarios.

Un agente lento hace que los desarrolladores agrupen solicitudes, se vayan a otra pestaña o dejen de confiar en el bucle. Un agente más rápido puede pedir confirmación, ejecutar una prueba, parchear un archivo y transmitir progreso sin que la sesión parezca muerta. Para estos flujos, Opus 4.8 Fast Mode es el mejor valor por defecto al mismo precio por token que Fable.

Usa Opus 4.8 Fast Mode cuando:

La tarea es interactiva. Ejemplos: “arregla esta prueba que falla”, “explica este stack trace”, “edita este componente”, “genera una migración y ejecútala”.
Ya tienes un buen arnés. Si tu agente tiene búsqueda en el repositorio, ejecución de pruebas, revisión de parches y rollback, puede que necesites turnos más rápidos más que un modelo base más autónomo.
Necesitas enrutamiento predecible. Los clasificadores de seguridad de Fable pueden rechazar ciertas solicitudes, y Anthropic dice que solicitudes marcadas de ciberseguridad, biología, química o destilación pueden redirigirse de Fable a Opus 4.8 (Anthropic launch post). Es un diseño de seguridad sensato, pero es otra rama en tu ruta de producción.
Tu agente tiene plazos de progreso de cara al usuario. La promesa explícita de Fast Mode es velocidad. La promesa de Fable es ambición.

El caso de uso estrella de Opus 4.8 Fast Mode es el bucle interno del agente:

claude -p "Run the failing test, patch the smallest fix, rerun only that test, and summarize the diff."

Ese trabajo no necesita días de autonomía. Necesita leer, editar, probar e informar rápido. Pagar el precio de Fable por Opus con una salida más rápida es racional ahí.

Usa Fable 5 cuando lo difícil es el control, no la velocidad

Fable sigue siendo el modelo que querría para los proyectos caóticos que no caben en un turno de programación de 90 segundos. Anthropic dice que la ventaja de Fable crece con tareas más largas y complejas, y describe fortalezas en ingeniería de software, trabajo de conocimiento, visión, memoria e investigación científica (Anthropic launch post). Su documentación también dice que está construido para razonamiento exigente y trabajo agéntico de largo horizonte (Claude API docs).

Usa Fable 5 cuando:

Puedes ejecutar de forma asíncrona. Encola el trabajo, transmite el estado, déjalo trabajar.
La tarea tiene una descomposición poco clara. Ejemplos: gran migración, refactor multi-repo, diseño a implementación, investigación de benchmark, síntesis de investigación.
Quieres que el modelo verifique su propio trabajo. El posicionamiento de Fable es más “agente senior” que “asistente rápido”.
Menos turnos valen más que turnos más rápidos. Si Fable ahorra tres rondas de dirección humana, la misma tarifa de tokens de 10/50 dólares que Opus Fast puede salir barata.

La trampa es el acceso. Las páginas públicas actuales de Anthropic dicen que Fable no está disponible. La arquitectura de respaldo limpia es convertir Fable en una ruta opcional de nivel superior, no en la única ruta:

interactive task -> Opus 4.8 Fast Mode
routine batch task -> Opus 4.8 standard or Sonnet
hard async task -> Fable 5 when available
flagged / refused Fable request -> Opus 4.8 fallback

Aquí también encaja OneHop de forma natural. Si tu bloqueo es probar Fable sin reconstruir tu capa de proveedores, OneHop lista anthropic/claude-fable-5 como endpoint de modelo, lo marca temporalmente no disponible y muestra 10 dólares de crédito gratis para cuentas nuevas sin tarjeta requerida (OneHop). La página que revisé lista soporte de Anthropic Messages en https://api.onehop.ai/anthropic y muestra precios con descuento frente a la lista oficial de 10/50 dólares.

from anthropic import Anthropic

client = Anthropic(
    base_url="https://api.onehop.ai/anthropic",
    api_key="<ONEHOP_KEY>",
)

message = client.messages.create(
    model="anthropic/claude-fable-5",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Plan a safe, staged migration from Jest to Vitest."}],
)

print(message.content[0].text)

Si tu integración es compatible con OpenAI y tu cuenta de OneHop está configurada para el gateway /v1, el patrón de migración es la misma idea: cambia el base URL a https://api.onehop.ai/v1, mantén el enrutamiento de modelos fuera de tu lógica de negocio y cambia IDs de modelo mediante configuración. Para Fable en concreto, verifica el protocolo soportado en la página activa del modelo de OneHop antes de desplegar.

Un boceto de flujo de arquitectura de un router de agente de programación: la solicitud del usuario entra en un clasificador y se ramifica hacia Opus 4.8 Fast Mode

La recomendación

No reemplaces Opus 4.8 por Fable 5 de forma global. Esa es la versión cara y frágil de la migración.

Para agentes de programación sensibles a la latencia, usa Opus 4.8 Fast Mode como sustituto al precio de Fable. Tiene el mismo precio por token, la promesa de velocidad es explícita y evita depender de un modelo que ahora mismo no está disponible. Añade Fable 5 como ruta de escalado asíncrona cuando vuelva el acceso.

Para trabajo autónomo de larga duración, espera al acceso a Fable o pruébalo mediante una ruta de proveedor cuando esté activo. El argumento a favor de Fable no es “mismo precio que Opus Fast”. El argumento es “menos turnos de dirección en trabajo que Opus aún tiene dificultades para completar”. Si tus tareas ya están resueltas por Opus 4.8, Fast Mode compra una mejor experiencia de usuario. Si tus tareas fallan porque el modelo no sostiene todo el plan, Fable es el que merece la pena pagar.

Mi regla de enrutamiento por defecto es simple:

Lanza con Opus 4.8 Fast Mode para bucles de programación en vivo.
Mantén Opus 4.8 estándar para trabajos en segundo plano con control de costes.
Envía solo las tareas asíncronas más difíciles a Fable 5 cuando esté disponible.
Mide el coste por tarea, no el precio por token.

Si quieres una forma de baja fricción para probar ese enrutamiento, empieza con Claude Fable 5 on OneHop, luego empieza con 10 dólares gratis. La idea no es venerar un modelo de frontera. La idea es dejar de codificar a fuego las elecciones de modelo en tu agente y hacer explícito el intercambio.