Claude Opus 4.8 在 SWE-bench Pro 上：69.2%，领先 GPT-5.5 和 Gemini 3.1 Pro

Claude Opus 4.8 最有用的编程指标，不是它在 SWE-bench Verified 上几乎刷满的分数，而是它在 SWE-bench Pro 上的 69.2%。

这很重要，因为 SWE-bench Pro 衡量的正是开发者真正希望自主代理完成的那类工作：打开一个真实代码库，理解问题，修改多个文件，运行测试，从错误假设里爬出来，然后交付补丁。在 Anthropic 的 Claude Opus 4.8 系统卡中，Opus 4.8 在 SWE-bench Pro 上得分 69.2%，领先 GPT-5.5 的 58.6% 和 Gemini 3.1 Pro 的 54.2%（Anthropic system card PDF）。

这个差距大到足以改变 agentic coding 的模型选择。如果你花钱让模型消耗代码库上下文、工具调用、测试失败和漫长的修复循环，10 个百分点的基准差距就不是花边数据。它意味着“需要大量盯着”与“值得交给它一个真实任务”之间的区别。

封面风格的基准测试主视觉图，将 Opus 4.8、GPT-5.5 和 Gemini 3.1 Pro 表现为三条炭黑与陶土色路线

基准测试对比 (Benchmark)

下面这张紧凑对比表，本周应该出现在每一份 coding-agent 评估文档里。

模型	SWE-bench Pro	SWE-bench Verified	Terminal-Bench 2.1	API 价格，输入/输出
Claude Opus 4.8	69.2%	88.6%	74.6%	每 100 万 tokens $5 / $25
Claude Opus 4.7	64.3%	87.6%	66.1%	此处未比较
GPT-5.5	58.6%	未列出	78.2%	每 100 万 tokens $5 / $30
Gemini 3.1 Pro Preview	54.2%	80.6%	70.3%	<=200k prompt 为 $2 / $12，>200k prompt 为 $4 / $18

上面的基准分数来自 Anthropic 的 Opus 4.8 系统卡表格（Anthropic system card PDF）。Anthropic 的产品页称，Opus 4.8 于 2026 年 5 月 28 日发布，面向“严肃编程和 AI agents”打造，支持 1M 上下文窗口，价格从每百万输入 tokens $5、每百万输出 tokens $25 起（Anthropic）。OpenAI 列出的 GPT-5.5 价格为每百万 tokens 输入 $5、输出 $30，上下文窗口为 1,050,000 tokens，并提供 gpt-5.5-2026-04-23 快照（OpenAI）。Google 列出的 Gemini 3.1 Pro Preview 价格为：prompt 不超过 200k tokens 时每百万 tokens $2/$12，超过 200k 时为 $4/$18（Google AI）。

Opus 赢下了代码库修复基准。GPT-5.5 在这张表里赢下 Terminal-Bench 2.1。Gemini 的单 token 成本更低，尤其是在 200k prompt 阈值以下，但在 SWE-bench Pro 上落后。

决策的轮廓就是这样。

奶油色背景上的紧凑横向柱状图，对比 SWE-bench Pro 分数：Claude Opus 4.8 69.2%，Claude Opus 4.7

SWE-bench Pro 实际测的是什么

SWE-bench Pro 不是又一个“根据提示写个函数”的测试。论文把它描述为一个覆盖 41 个活跃维护代码库、共 1,865 个问题的基准，范围包括商业应用、B2B 服务和开发者工具（arXiv）。它把任务拆成公开集、留出集，以及由私有创业公司代码库构建的商业集。

关键在于任务形态。SWE-bench Pro 的问题是长周期软件工程任务。作者表示，这些任务可能需要专业工程师花数小时甚至数天，通常需要跨多个文件打补丁，并包含实质性的代码改动（arXiv）。这个基准还过滤掉了琐碎编辑。论文报告的参考解法平均为 107.4 行，跨 4.1 个文件。

这更接近开发者交给 agents 的工作：

git grep "billing status"
npm test -- --runInBand
git diff
pytest tests/billing/test_invoices.py

难点不是生成语法正确的代码。难点是判断哪个层负责这个 bug，阅读足够多的周边代码，在不破坏相邻行为的前提下修改，并利用测试输出纠正方向。

SWE-bench Verified 仍然有价值，但榜首已经很拥挤。Anthropic 的表格显示，Opus 4.8 在 SWE-bench Verified 上为 88.6%，Opus 4.7 为 87.6%。1 个百分点的差距，不足以支撑为昂贵的自主代码库任务选择模型。但在 SWE-bench Pro 上，Opus 4.8 与 Opus 4.7 的差距是 4.9 个百分点。相比 GPT-5.5 是 10.6 个百分点。相比 Gemini 3.1 Pro 是 15.0 个百分点。

这就是信号。

每美元性能比标价更复杂

token 价格仍然重要。Agents 很能吃。一次真实的代码库运行，可能包含很长的初始上下文、反复读文件、测试日志、失败补丁、摘要，以及取决于供应商计费方式的隐藏推理或思考 tokens。

为了做一个粗略的同口径比较，假设一次长上下文编程运行包含 800k 输入 tokens 和 200k 输出 tokens。这不是通用工作负载；只是用来比较大型代码库任务标价 API 的一种干净方式。

模型	价格假设	800k 输入 / 200k 输出成本	SWE-bench Pro	每美元得分点
Claude Opus 4.8	输入 $5 / 输出 $25	$9.00	69.2	7.69
GPT-5.5	输入 $5 / 输出 $30	$10.00	58.6	5.86
Gemini 3.1 Pro Preview	>200k prompt：输入 $4 / 输出 $18	$6.80	54.2	7.97

奶油色背景上的性能价格散点图，x 轴为 800k 输入加 200k 输出的成本，y 轴为 SWE-bench

在这个简化计算里，Gemini 的原始价格效率看起来很强。如果你最在意通过率，Opus 看起来最强。GPT-5.5 在这个切片里是昂贵的中间项：输出价格高于 Opus，SWE-bench Pro 分数更低，但在 Anthropic 的表里 Terminal-Bench 2.1 分数最高。

对自主编程来说，我不会只优化“每美元基准得分”。一次失败的 agent 运行不只是 token 账单。它还包括评审时间、上下文切换、糟糕补丁、摇摇欲坠的后续提示，以及重跑整条循环的成本。如果 Opus 4.8 更高的通过率能在你的代码库里转化为更少的重启，那么这个假设运行里相对 Gemini 多出的 $2.20 很快就会消失。

公平的做法是跑你自己的代码库评测框架：

agent-eval run \
  --model claude-opus-4-8 \
  --tasks evals/repo_tasks.jsonl \
  --max-cost-usd 50 \
  --record patches,tests,tokens

跟踪被接受的补丁、人工评审分钟数、总成本和回滚率。基准分数应该决定你的候选名单。你的代码库才应该决定生产选择。

为什么 Opus 4.8 赢下这个特定信号

Opus 4.8 的故事不是泛泛地说“Claude 更擅长代码”。这种说法太宽，而且通常至少会在某个基准上被打脸。更精准的说法是：在 Anthropic 报告的 SWE-bench Pro 设置下，Opus 4.8 在自主解决代码库 issue 上领先。

这对应三个实际优势。

第一，它在简单天花板之上还有区分度。SWE-bench Verified 很有用，但当模型已经都在 80 多分后段时，微小差异对采购决策会变得嘈杂。SWE-bench Pro 重新拉开了差距。

第二，它压测的是代码库规模的行为。SWE-bench Pro 论文明确提到抗污染、商业/私有代码库、多文件改动、人工验证和企业风格任务（arXiv）。这更接近“修一下我们计费服务里的这个回归”，而不是“补全这个 Python 函数”。

第三，Anthropic 对 Opus 4.8 的定位围绕长时间运行的编程和 agents，而不只是聊天。它的 Opus 页面称，该模型可在 Claude Code 和 API 中使用，支持 1M 上下文，并面向复杂编程、agentic workflows 和专业工作（Anthropic）。营销语言不是证据，但基准表与产品方向是对齐的。

架构流程草图，展示自主代码库 agent 循环：issue 接收、代码库搜索、计划、补丁、测试、修复、完成

我会如何为代码库 Agents 选模型

如果你的 agent 做的是浅层编辑、代码片段或 IDE 自动补全，SWE-bench Pro 不该是唯一视角。延迟、流式输出质量、本地工具集成和价格会更重要。

如果你的 agent 被期望端到端接管代码库任务，从这个排序开始：

把 Claude Opus 4.8 作为高难度自主代码库工作的质量基线。
当任务执行高度依赖终端时，测试 GPT-5.5，因为 Anthropic 的表格显示它在 Terminal-Bench 2.1 上领先。
当成本压力很高，且你的任务低于失败成本阈值时，测试 Gemini 3.1 Pro Preview。
在循环里保留一个更便宜的模型，用于分诊、文件搜索摘要和低风险编辑。

最可靠的生产模式，不是用一个巨型模型包打一切。用一个快而便宜的模型来分类 issue、收集上下文。把困难补丁升级给 Opus 4.8。运行测试。再用第二个模型，有时是 GPT-5.5 或 Gemini，来评审最终 diff。只有当测试套件和人工评审都同意时才发出去。

这听起来没有“自主工程师”那么魔法。很好。这也是团队避免一觉醒来发现漂亮补丁把 auth 搞坏的办法。

结论

Claude Opus 4.8 的 69.2% SWE-bench Pro 分数，比另一个高 SWE-bench Verified 分数更能说明开发者关心的问题。它衡量的更接近 agents 本应完成的工作：代码库导航、多文件改动、测试驱动修复和长周期执行。

Opus 4.8 不是这次对比里最便宜的模型。它也没有赢下 Anthropic 自己表格里的每一个基准。但对自主代码库工作来说，SWE-bench Pro 上的差距已经大到足以让它成为我会第一个评估的模型。

用公开数据建立候选名单。然后跑你自己的任务，衡量每美元被接受补丁数，并把人工评审时间计入成本。基准胜利要么在这里变成工程杠杆，要么在这里消失。

想亲自试试 Claude Fable 5 的读者，可以通过 OneHop 使用：一个可直接替换的端点，约比标价低 30%，新账户送 $10 且无需绑卡。查看 Claude Fable 5 on OneHop 或 start with $10 free。

延伸阅读：Getting started with Claude Fable 5.