Anthropic 6 月 3 日的网络威胁报告里有一个安全团队不该忽视的硬数字:它分析了 2025 年 3 月至 2026 年 3 月期间因恶意网络活动被封禁的 832 个 Claude 账号,并将这些活动映射到 MITRE ATT&CK(Anthropic)。头条发现并不是“AI 会写恶意软件”。这件事我们早就知道。更尖锐的说法是:MITRE ATT&CK 这个许多防御者用来描述对手行为的共同语言,还没有捕捉到让 AI 原生攻击变得不同的关键东西:代理式编排。
这个观点出现在一个吵闹的一周中间。6 月 9 日,Anthropic 发布了 Claude Fable 5 和 Claude Mythos 5,把 Fable 描述为面向公众、带有网络安全和生物安全保护的 Mythos 级模型,把 Mythos 描述为面向经过审核的防御者的受限版本(Anthropic)。到 6 月 12 日,Anthropic 表示,在一项与已报告越狱担忧相关的美国政府指令之后,它已暂停 Fable 5 和 Mythos 5 的访问权限(Anthropic)。Hacker News 和 Reddit 上的讨论现在正在争论:这些护栏到底是在保护公众、削弱防御者,还是主要制造令人困惑的误报。
开发者应该把 6 月 3 日的报告和 Fable 风波分开读。它不是一篇产品发布文章。它是一篇测量报告。而且它给安全工程师提供了本季度可以立刻落地的一项更新:开始把代理脚手架建模为攻击基础设施。

Anthropic 实际测量了什么
Anthropic 表示,这 832 个账号是被封禁账号中的一个子集,调查人员对这些账号掌握了足够细节,可以把观察到的活动映射到 MITRE ATT&CK。它的 Frontier Red Team 文章补充了更多细节:团队提取了 13,873 条恶意活动观察记录,将它们映射到 ATT&CK v18,并发现这些活动覆盖了全部 14 个 ATT&CK 战术和 482 个独特子技术(Anthropic Frontier Red Team)。
这很重要,因为这不是让模型去解一个合成 CTF 的基准测试。它是真实用户违反网络相关使用政策留下的滥用遥测数据。这也意味着这个数据集有边界。它看到的是 Anthropic 触点上的滥用:Claude.ai、Claude Code 和 API。它没有测量整个互联网、其他模型提供商、本地开放权重系统,或者那些从未接触 Claude 的攻击。把它当成一个强传感器,不要当成整片天空。
最常见的行为很无聊,也很重要。Anthropic 报告称,在 832 个账号中,有 560 个,也就是 67.3%,使用 AI 进行恶意软件开发。根据 Frontier Red Team 的文章,更宽泛的 “Develop Capabilities” ATT&CK 家族 T1587 出现在 574 个账号中,也就是 69%。这是商品化层级:编写脚本、打磨载荷、自动化规避、生成胶水代码。
更有意思的信号,是活动随时间转移到了哪里。在研究窗口的前半段,Anthropic 的 ARiES 风险评分将 33% 的行为者归为中等或更高风险。到后半段,这一比例升至 56%,约为 1.7 倍增长。Anthropic 还表示,AI 辅助的账号发现上升了 8.9%,而 AI 辅助的钓鱼下降了 8.6%(Anthropic)。
这才是防御者该关心的部分。钓鱼是入口。账号发现、横向移动、权限提升和凭据访问是入侵后的工作。它们需要上下文、适应能力和战术选择。如果 AI 的使用正在向那里漂移,模型就不再只是载荷生成器。它正在成为操作员循环的一部分。
| Anthropic 数据集中的信号 | 数字 |
|---|---|
| 分析的被封禁恶意网络账号 | 832 |
| 研究窗口 | 2025 年 3 月至 2026 年 3 月 |
| 映射的已观察恶意行为 | 13,873 |
| 观察到的独特 ATT&CK 子技术 | 482 |
| 使用 AI 进行恶意软件开发的账号 | 560,或 67.3% |
| 前半段中等或更高风险行为者 | 33% |
| 后半段中等或更高风险行为者 | 56% |
为什么 MITRE ATT&CK 开始吃力
MITRE ATT&CK 仍然有价值。MITRE 将其描述为一个基于真实世界观察、全球可访问的对手战术和技术知识库,供产业界和政府用于威胁模型和方法论(MITRE)。它给团队提供了共享 ID,用来描述 T1587.001 恶意软件开发、凭据转储、账号发现、命令执行和数据外传等事情。
问题在于,ATT&CK 最擅长命名单个原子动作。Anthropic 的说法是,危险的 AI 行为存在于这些动作之间。
一个人类操作员可能会决定:扫描这台主机,检查这个结果,转向这些凭据,尝试这条横向路径,然后外传这些文件。ATT&CK 可以映射每一步。但如果一个代理式框架在做选择、运行工具、更新计划,并在很少人类输入的情况下继续推进,那么 ATT&CK 地图看起来可能很普通,而整个行动在性质上已经不同了。
Anthropic 举的例子是它称在 2025 年 11 月挫败的一场网络间谍活动。在那起事件中,行为者在一次行动中使用 Claude Code;Anthropic 称该行动试图在很少人类干预的情况下渗透全球目标。映射到 ATT&CK,它使用了横跨 13 个战术的 30 项技术,和数据集中许多中等风险行为者相当。在 Anthropic 的 ARiES 系统下,它得分 100,也就是最高分(Anthropic)。
这个错位才是重点。技术数量说的是“差不多中等”。代理式执行说的是“关键级”。
Frontier Red Team 的文章更具体:这个被标记为 GTG-1002 的行为者在 Kali Linux 上使用 Claude Code,并把开源渗透测试工具集成为 MCP 服务器,把模型变成了一个自主攻击平台,而不是代码助手(Anthropic Frontier Red Team)。这正是大多数内部威胁模型仍然描述不足的行为类型。

用操作语言讲清“代理式网络风险”
这个词听起来很抽象。其实不是。对工程团队来说,代理式网络风险意味着攻击者拥有这样一个循环:
observe target state -> choose next tactic -> call tool -> parse result
-> update memory -> pivot or stop -> repeat without waiting for a human
这个循环改变了三件事。
第一,它压缩了时间。如果模型能选择命令、解读输出并从错误中恢复,低技能行为者就不再需要深刻理解每个工具。Anthropic 发现,表面上的行为者技能与使用技术数量之间相关性很弱:技能最低的行为者平均使用约 16 种不同技术,而技能最高的平均约 20 种(Anthropic)。
第二,它让接口选择不再那么令人安心。Anthropic 表示,行为者使用 Claude Code、API 还是聊天界面,与风险等级并不相关。高风险的差异点在于,行为者把 AI 用在攻击生命周期的哪个位置,以及围绕它搭了什么脚手架。
第三,它把“护栏”变成了一个运行时系统问题。被拦截的提示词是一种控制。但一个长时间运行、带有工具、记忆、重试、shell 访问、浏览器访问和 MCP 服务器的代理,是一个分布式系统。风险动作可能跨越许多请求才浮现出来。这解释了为什么 Anthropic 将 Fable 5 和 Mythos 级模型与 30 天留存期绑定,用于安全监控;它说这些数据有助于检测多请求越狱和滥用模式(Anthropic)。
开发者可能不喜欢这项政策。拥有零留存承诺的企业买家会非常不喜欢。但从检测角度看,Anthropic 的论点是连贯的:单轮分类器看不到攻击图。
社区争论的是误报和访问权
开发者争论的不是“AI 是否应该帮助黑客?”没有哪个严肃的人想要恶意软件即服务。真正的争论是:谁能拿到完整模型,谁会被降级,以及控制措施有多透明?
在 Hacker News 上,4 月 Project Glasswing 的讨论既有对 Anthropic 营销的怀疑,也有一个更具体的担忧:如果一个会使用工具的代理是持久的、目标导向的,并且连接到真实工具,那么那些有助于漏洞研究的同样属性,一旦代理偏离脚本,就会变得危险(Hacker News)。这是这场争论的成年人版本。
在 Reddit 上,发布周的抱怨更直接。在一个 r/Anthropic 讨论串里,一名用户描述自己让 Fable 审计一个项目,结果被标记并降级到 Opus,于是质问如果 Fable 这么容易被触发,那它到底有什么用(Reddit)。在 r/cybersecurity,用户讨论了 30 天留存要求,以及这条护栏对合法安全工作来说是否过于粗暴(Reddit)。
TechCrunch 记录了安全研究人员同样的痛点。Matt Suiche 告诉该媒体,即使是安全代码请求也可能被视为网络安全请求并被降级,而且这种行为看起来像是基于关键词(TechCrunch)。Anthropic 自己的发布文章也承认,安全保护被调得比较保守,有时会拦到无害请求。
然后就是 6 月 12 日的暂停。Anthropic 表示,政府指令迫使它为所有客户禁用 Fable 5 和 Mythos 5,尽管它并不同意一个狭窄的潜在越狱问题足以成为召回商业模型的理由(Anthropic)。这让社区争论从“误报很烦人”变成了“模型访问现在是网络政策的一部分”。
我的立场是:Anthropic 说代理式网络风险是真实的,这点没错;它说完美的抗越狱能力是幻想,也没错。但粗暴降级既是糟糕的开发者体验,也是不好的安全控制,尤其是在防御者无法预测工具何时会改变行为时。安全团队需要透明路由、审计日志、获批的高风险工作流和有范围的工具权限。他们不需要在事件响应进行到一半时被突然换模型。

如何更新你的内部威胁模型
如果你的公司允许 Claude Code 风格的工具、类似 Cursor 的代理、内部编码代理,或由 API 驱动的 LLM 自动化,现在就更新威胁模型。不要等 MITRE 造出新的 ID。
从代理清单开始。跟踪哪些代理可以读取代码仓库、运行 shell 命令、浏览内部系统、调用扫描器、开工单或访问秘密。风险单位不再是“用户把代码粘进聊天框”。而是“代理拥有工具、状态和目标”。
把脚手架检测加入遥测。记录工具调用、命令序列、MCP 服务器使用、重试、文件读取、网络请求和权限变更。在实验室里,单次 nmap 调用可能很正常。一个先扫描、再解析、再选择凭据、再横向跳主机、最后把发现写入记忆的循环,就该把人叫醒。
把防御性工作流和开放式自主性分开。一个好的模式是有边界的任务:“扫描这个仓库中的 SQL 注入汇点并生成候选补丁”,配只读凭据且无网络出口。一个坏的模式是“调查我们的预发环境并修复你发现的任何问题”,同时拥有宽泛 shell 访问和持久记忆。
映射 ATT&CK 技术,但在上面加一层内部“代理式层”:
| 内部标签 | 要记录什么 |
|---|---|
| 自主链式执行 | 模型是否在没有人类批准的情况下串联了多个 ATT&CK 步骤? |
| 战术转向 | 它是否基于实时输出选择了新目标、凭据、漏洞利用路径或工具? |
| 工具权限 | 代理可以执行、读取、修改或外传什么? |
| 记忆使用 | 它是否持久化了目标状态、凭据、假设或计划? |
| 人类检查点 | 哪些步骤需要明确批准,批准是否有实际意义? |
对 AI 平台团队来说,实用的控制点是在工具边界做策略。不要只依赖模型拒答。为命令强制执行允许列表。对网络扫描、凭据访问、漏洞利用概念验证生成和破坏性变更要求审批。把秘密放在默认可以拒绝代理访问的代理层后面。限制自主循环的速率。保留每次运行的溯源,这样安全审查者可以重放代理看到和做过的事情。
对安全工程师来说,新的检测问题很简单:“一个初级攻击者拿着这个代理,能否在一小时内表现得像高级操作员?”如果答案是能,就把这个工作流归为高风险,即使每个单独技术看起来都很普通。
有用的结论
Anthropic 的报告很容易被误读为在抱怨 MITRE ATT&CK 过时了。这太浅了。ATT&CK 仍然能命名那些动作。缺失的词汇是给指挥者用的。
6 月 3 日的数据集显示,AI 滥用正在更深入地进入杀伤链,从准备阶段进入入侵后活动。Fable/Mythos 之争显示了为什么为这个世界交付防御如此混乱:开发者想要强大的工具,防御者需要访问权,厂商需要监控,而政府现在愿意介入。
正确的回应不是恐慌,也不是假装护栏已经足够。把代理脚手架当作基础设施。为它做威胁建模。记录它。围绕工具使用制定策略。今天就把“自主编排”和“实时战术转向”加入你的内部检测语言,即使 MITRE 还没有给它们官方技术 ID。
小页脚:想在访问可用时亲自试用 Claude Fable 5 的读者,可以通过 OneHop 上的 Claude Fable 5 使用它,这是一个即插即用端点,价格大约比标价低 30%。新账号无需绑卡即可通过 领取 10 美元免费额度开始 获得 10 美元免费额度。
延伸阅读:Claude Fable 5 入门.