← 全部文章
Benchmark

Claude Fable 5 登上 CursorBench 3.1:真实多文件编码任务准确率 72.9%

A cream editorial cover showing a stylized coding-agent leaderboard as stacked terracotta and charcoal bars, with one ta

Claude Fable 5 不是悄悄摸上榜单的。它是一上来就站到了最顶端。

Cursor 的实时 CursorBench 3.1 页面现在显示,Fable 5 Max 达到 72.9%每个任务平均成本 $18.02,领先于 GPT-5.5 Extra High 的 64.3% / $4.37Opus 4.8 Max 的 63.8% / $7.59Cursor)。这是一个很大的质量差距,而且这个基准测的是围绕真实 Cursor 会话构建的任务,不是玩具式算法题。

它也很贵。如果你整天跑代理,那就是疼得很明显的贵。

所以现在 Claude Code 和 Cursor 的争论,不是“Fable 5 好不好?”榜单已经回答了。更好的问题是:8 到 9 个百分点的领先,什么时候值得多付 2 到 4 倍账单?

我的答案是:Fable 5 是你用来升级处理的模型,不是你盲目让它接管每一次编辑的模型。真正有意思的结果,不只是 Fable 5 Max 赢了。而是 Fable 5 Medium 和 Low 可能才是更实用的故事

与封面风格一致的散点图,标题为“CursorBench 3.1:分数 vs 每个任务平均成本”;x 轴 $0 到 $20,y 轴 30% 到 75

CursorBench 3.1 到底在测什么

Cursor 将 CursorBench 3.1 描述为对“来自真实 Cursor 会话的模糊、多文件任务”的评测,分数越高越好(Cursor)。这句话很关键。开发者对编码代理的多数挫败感,并不是来自单文件 LeetCode 风格的失败。它来自那些乱糟糟的东西:

  • 理解仓库结构
  • 判断哪些文件重要
  • 规划跨边界编辑
  • 在没有被过度指挥的情况下找 bug
  • 代码审查时不幻觉出一个不存在的问题
  • 维持足够长的上下文,直到把事情做完

CursorBench 3.1 增加了聚焦于代码库理解、找 bug、规划和代码审查的问题,并改进了一些编辑任务的评分标准(Cursor)。Cursor 更长的基准说明文章称,这套测试是为了在公开基准越来越饱和的情况下区分前沿模型,同时 Cursor 也会把线上产品信号和离线评分一起跟踪(Cursor blog)。

这并不意味着它完美。它仍然是一家厂商的评测,运行在一个产品的代理框架里,任务分布也只有一种。Cursor 还提醒,小幅分数差异可能没有统计意义(Cursor)。所以不,你不该把 0.6 分的差距当成真理。

但 Fable 5 Max 不是赢了 0.6 分。它领先 GPT-5.5 Extra High 8.6 分,领先 Opus 4.8 Max 9.1 分。这已经大到值得认真对待。

下面是对日常编码代理选择真正重要的精简榜单:

Model / settingCursorBench 3.1 scoreAvg cost / taskTokens / taskSteps / task
Fable 5 Max72.9%$18.0263,84276
Fable 5 Extra High72.0%$13.7448,75463
Fable 5 High70.6%$10.8137,17354
Fable 5 Medium69.8%$8.2728,50747
Opus 4.7 Max64.8%$11.0262,98996
GPT-5.5 Extra High64.3%$4.3717,90546
Fable 5 Low64.2%$5.7018,88236
Opus 4.8 Max63.8%$7.5977,37060
Composer 2.563.2%$0.5515,15237

Cursor 表示,每个任务的平均成本,是将各模型公开的每百万 token 定价,包括输入、缓存读取、缓存写入和输出 token,应用到每个 CursorBench 任务所使用的 token 上,然后对所有任务取平均(Cursor)。这个框架是对的。代理不是按感觉计费的。它们按读取、改写、重试和解释的量计费。

赢的是 Fable 5。性价比赢家不是。

Fable 5 Max 在原始分数上获胜。不需要任何包装。

但按每美元性能来看,画面很残酷:

Model / settingScoreCostScore points per $1
Fable 5 Max72.9%$18.024.0
Fable 5 Medium69.8%$8.278.4
GPT-5.5 Extra High64.3%$4.3714.7
Opus 4.8 Max63.8%$7.598.4
Composer 2.563.2%$0.55114.9

最后一行就是社区争论这么激烈的原因。Composer 2.5 在绝对质量上离 Fable 5 Max 并不近,但它在这个榜单上接近 GPT-5.5 Extra High 和 Opus 4.8 Max,而成本相比之下几乎是零钱。如果你每周跑几百个代理任务,这比榜首头衔重要得多。

边际账更清楚:

Fable 5 Max vs GPT-5.5 Extra High:
+8.6 score points, +$13.65/task
≈ $1.59 per extra score point

对比 Opus 4.8 Max:

Fable 5 Max vs Opus 4.8 Max:
+9.1 score points, +$10.43/task
≈ $1.15 per extra score point

对于一次棘手的迁移,多花 $10 到 $14 只是噪音。如果模型少让你失败一次,它就已经回本了。可如果一个团队在每个 pull request、依赖升级、lint 失败和测试修复上都跑后台代理,这个溢价就会变成预算政策。

最被低估的一行是 Fable 5 Medium。它得分 69.8%,只比 Fable 5 Max 低 3.1 分,成本却是 $8.27,而不是 $18.02。换句话说,Medium 用大约 46% 的 Max 任务成本,保住了约 96% 的 Max 基准分数。如果你想找一个 Fable 默认模型,就该盯着这一行看。

柱线组合图,标题为“Fable 5 scaling curve”;Low、Medium、High、Max 四组柱展示分数,wit

社区争论真正围绕的是 token 消耗

实时讨论串一点也不含蓄。在 Cursor subreddit 的发布讨论中,一位用户的第一印象是,Fable 5 展现了非常细致的推理和雄心勃勃的计划,但也“非常慢”,并且随着需求激增,连接方面的小问题也在预期之内(Reddit r/cursor)。这和榜单吻合:Fable 5 Max 每个任务使用 63,842 tokens76 steps。它不是一个轻量反射型模型。

在关于 CursorBench 结果的 ClaudeAI 讨论串里,反对意见来得很快:一位评论者称它“不是合法的基准”,另一位马上问,如果 fable medium 更便宜,那是不是“就没有理由用 opus 了”,还有回复指出 Composer 2.5 “非常便宜而且好用”(Reddit r/ClaudeAI)。这正是核心分歧:基准可信度、Opus 是否被取代,以及便宜且够好的替代品。

ClaudeCode 的讨论串更接近实际运营问题。原帖注意到,在 CursorBench 上,Fable 5 Low 比 Opus 4.8 Max 更聪明且更便宜,评论者则把焦点放在每任务成本和 token 效率上。有条评论说得很直白:对独立开发者和自由职业者来说,每任务成本和相对分数才是重要基准,因为生产力很快可能会按 token 消耗来评判(Reddit r/ClaudeCode)。

这个说法和表格对得上。

Fable 5 Low:

  • 64.2%
  • $5.70
  • 18,882 tokens

Opus 4.8 Max:

  • 63.8%
  • $7.59
  • 77,370 tokens

所以在 CursorBench 3.1 上,Fable 5 Low 略微领先 Opus 4.8 Max,每个任务少花 $1.89,并且少用约 76% 的 tokens。这不是微不足道的脚注。这是产品决策。

如果你在 Cursor 里仍然把 Opus 4.8 Max 当作“严肃 Claude”设置,这个基准说明你应该立刻测试 Fable 5 Low 和 Medium。不是因为每个仓库都会匹配 Cursor 的任务组合。而是因为举证责任已经变了。

Anthropic 的定价解释了为什么价格这么刺眼

Anthropic 于 2026 年 6 月 9 日发布 Claude Fable 5 和 Claude Mythos 5,并将 Mythos 级模型描述为高于 Opus 的一个层级。在 Anthropic 的发布文章中,Fable 5 是通用发布版本,而 Mythos 5 是同一底层模型,但为受限的可信访问用途解除了一些防护(Anthropic)。

API 价格简单而高昂:Fable 5 和 Mythos 5 都是每百万输入 token $10、每百万输出 token $50Anthropic)。Anthropic 还表示,Fable 5 可通过 Claude API 以 claude-fable-5 使用,而订阅计划访问只会临时包含到 6 月 22 日,除非容量允许延长(Anthropic)。

这个定价会改变你思考代理提示词的方式。

用便宜模型时,粗糙的上下文还能忍。你粘贴太多内容,要求太宽泛的修改,让代理到处游荡,账单虽然烦人但还扛得住。到了 Fable 5 Max 级别的成本,糟糕的 harness 设计就会被放大。每个不必要的文件、重复的计划、冗长的工具结果和失败的 patch 尝试都会叠加。

一个实用的路由策略大概是这样:

default: fast/cheap model for local edits and small bugs
escalate: Fable 5 Medium for ambiguous multi-file work
reserve: Fable 5 Max for high-risk refactors, stuck tasks, and final review
fallback: human review when the agent starts exploring instead of editing

这不如“使用最好的模型”听起来刺激。但这才是团队避免一觉醒来看到像云事故一样的 token 账单的方法。

用于编码代理模型选择的简单路由流程图;方框标注为“小型本地编辑”、“多文件模糊任务”,

这个基准有一个可用性星号

还有一个混乱的时事变量:Fable 5 的发布周并不平静。

6 月 12 日,Anthropic 发布声明称,美国政府发布了一项出口管制指令,要求暂停外国国民访问 Fable 5 和 Mythos 5,包括拥有外国国籍的 Anthropic 员工;Anthropic 表示,立即合规的唯一方式是对所有客户禁用这些模型(Anthropic)。公司称其他 Claude 模型不受影响。

对基准解读来说,这不会抹掉 CursorBench 的结果。榜单仍然是关于模型在 Cursor 代理框架下能力的有用证据。但对采购和工作流设计来说,可用性不是脚注。如果你的团队把标准流程押在一个可能因为容量、政策或安全门控而消失的模型上,你就需要一条回退路径。

这也是不要把 Fable 5 Max 接进每个任务的另一个理由。最好的工程设置应该是模型可移植的:

  • 不依赖某一家提供商怪癖的 prompts
  • 足够小的任务边界,让第二个模型可以重试
  • 在你自己的仓库上做 evals,而不只是看公开榜单
  • 按任务记录成本,而不只是看月度账单
  • 对危险 diff 设置人工升级点

基准告诉你从哪里开始。你的仓库告诉你该交付什么。

我的看法:把 Fable 5 当高级审查者用,而不是默认自动补全

Fable 5 Max 配得上 CursorBench 3.1 的第一名。在模糊、多文件 Cursor 任务上拿到 72.9% 的分数,正是开发者应该关心的信号。它领先 GPT-5.5 Extra High 和 Opus 4.8 Max 的幅度足以改变模型选择习惯。

但错误的教训是“永远用 Max”。

正确的教训更窄:当模糊性才是瓶颈时,Fable 5 值得付费。架构迁移、跨文件 bug、归属不清的失败测试套件、细微的审查环节,以及“我需要代理先形成计划再碰代码”的任务,都很适合。常规 CRUD 编辑、明显的测试修复、格式清理和单文件重构则不适合。

如果你想从这个榜单里找一个实用默认方案,可以从这里开始:

  • Composer 2.5 用于便宜、够用的常规代理工作。
  • GPT-5.5 Extra High 用于在远低于 Fable Max 成本的情况下获得强分数。
  • Fable 5 Medium 作为严肃日常主力候选。
  • Fable 5 Max 用于升级处理,而不是后台噪音。
  • Retest Opus 4.8 Max 在你的工作流里重新测试;CursorBench 让它很难继续作为默认选择被合理化。

Fable 5 的标题数字是 72.9%。工程上的教训是路由。

真正用好这些模型的团队,不会是那些永远选择最大模型的团队。会是那些清楚知道最大模型什么时候反而便宜的团队。

编辑风格“模型选择矩阵”,两条轴分别为任务模糊度从低到高、成本容忍度从低到高;区域标注为 labele

想亲自试用 Claude Fable 5 的读者,可以通过 OneHop 使用它:Claude Fable 5 on OneHop,这是一个可直接替换的 endpoint,价格约比标价低 30%。新账号可获得 $10 free,无需银行卡。

延伸阅读:Claude Fable 5 入门.