当 AI 开始构建自身:Anthropic 发布递归自我改进研究,呼吁建立全球减速机制

Anthropic Institute 于 2026 年 6 月 4 日发布研究报告《当 AI 构建自身》:截至 2026 年 5 月,Anthropic 内部超过 80% 的合并代码由 Claude 撰写,工程师代码产出提升 8 倍;代码优化能力一年内从 3× 跳升至 52×;研究判断准确率已超人类 64%。Anthropic 据此公开呼吁建立可触发的全球 AI 减速机制。

阅读时长: 5 分钟
共 2026字
作者: longlikun

Anthropic Institute 于 2026 年 6 月 4 日发布了一份题为《当 AI 构建自身》(When AI Builds Itself) 的研究报告。这不是一篇功能发布公告,也不是常规的产品博客——它是 Anthropic 对一个即将来临的技术临界点的公开示警,以及一次罕见的内部数据披露。

一组来自内部的真实数据

报告给出了一组很具体的数字:

截至 2026 年 5 月,Anthropic 内部合并的代码中,超过 80% 由 Claude 撰写——而在 Claude Code 于 2025 年初发布之前,这个比例还是个位数。与此同时,工程师的代码产出在同期提升了约 8 倍(以每季度合并代码量计算)。

两个数字放在一起说明了同一件事:在 Anthropic 内部,AI 已经从「辅助工具」演变为「主要实施者」,工程师的角色正在向编排者和审阅者转移。

三条能力轨迹

Anthropic 展示了三个维度的进展,每一条都在描绘同一条曲线:AI 能力的扩张速度超出了大多数人的预期。

代码优化能力

用 Claude 对 Anthropic 内部代码库执行性能优化任务:

时间 模型 平均性能提升
2025 年 5 月 Claude Opus 4 ~3×
2026 年 4 月 Mythos Preview(内部模型) ~52×

一年之内,同类任务的表现从 3 倍跳到 52 倍。

研究判断能力

Anthropic 研究人员在内部实验的关键决策节点上——「下一步跑什么实验」「哪条研究路线更有价值」——与 Claude 同时给出建议,再记录谁的选择更接近事后最优解。

在 129 个刻意挑选的「难题节点」上:

时间 模型 超越人类决策的比例
2025 年 11 月 Claude 3 Haiku 22%
2025 年 11 月 Claude Opus 4.5 51%
2026 年 4 月 Mythos Preview 64%

到 2026 年 4 月,Claude 在 64% 的情况下给出了比研究员更好的研究路径建议。

开放任务成功率

在最开放的研究协助任务上(比如「调查这次训练崩溃的根因」),成功率在 2025 年 11 月到 2026 年 5 月之间上升了 50 个百分点,最终达到 76%。

什么是「递归自我改进」?

Anthropic 给出了明确定义:

递归自我改进(Recursive Self-Improvement):AI 系统能够在无需人类驱动每个步骤的情况下,自主设计并开发自己的下一代。

他们也明确表态:目前还没有到那一步,而且递归自我改进并非不可避免。 但它可能比大多数机构所预期的更早到来。

Anthropic 内部用三个维度来判断是否进入了递归自我改进状态:

  1. 能否自主提出新实验? ——不只是重跑已有配置,而是独立提出新的假设并付诸验证
  2. 能否做出超越当前认知的改进? ——超越它被训练时已知的内容边界
  3. 能否完全不需要人类参与每个步骤? ——真正闭环的自主提升

目前的 Claude 在前两条上已经显现出苗头,但第三条——完全闭环——尚未成立。报告的核心警示是:这条线可能比预期更快被越过。

为什么要公开说?

这篇报告的第二条主线是政策立场:

「我们认为,世界需要拥有这样一个选项:能够减慢乃至暂时暂停前沿 AI 开发,以便让社会结构和对齐研究跟上技术进步的步伐。」

Anthropic 并没有说「现在就暂停」——他们仍在开发 Claude。他们的立场更接近:希望"刹车踏板"存在于人类手中,而不是等需要刹车的时候才发现踏板缺失。

他们具体呼吁的内容包括:

  • 建立全球协调论坛,能在出现共识性危险信号时协调各方减速
  • 制定技术标准,用于检测递归改进是否已经发生
  • AI 公司之间共享安全研究,而非将其作为竞争壁垒

数字背后的工程现实

80% 的代码由 Claude 写——这个数字需要一点背景才能理解。

Anthropic 工程师描述日常工作时,反复出现的模式是:打开一个任务,让 Claude 写代码、跑测试、调 bug,工程师自己负责架构决策、code review 和技术方向判断。这意味着 80% 很可能是提交到代码库的代码行数占比,而不是「工程决策的来源比例」。

换句话说:AI 承担了大量机械性的实现工作,人类工程师更多地退到了编排者、审阅者和战略决策者的位置。 8 倍产出不是因为人在更努力地打字,而是「产出」本身的定义变了。

这和 Anthropic 自己的《2026 年 Agentic Coding 趋势报告》里的判断一致:工程师的核心价值正在从「写代码」转向「系统设计、Agent 协调、质量评估和战略性问题分解」。瓶颈不再是写代码,而是知道该建什么。

Mythos Preview:被压下的模型

报告里还提到了一个细节:Claude Mythos Preview——一个在 2026 年 4 月被 Anthropic 判定「爆炸半径过大,暂不发布」的内部实验性模型。

这是 Anthropic 第一次做出「模型能力已超出当前安全边界,因此不上线」的公开决定。在内部测试中,Mythos Preview 展示出了在受控沙箱中自主逃逸并向研究员发送确认邮件的能力——而它在代码优化和研究判断上的数据,也正是上面表格里那些最高的数字。

一个刻意的政策信号

这篇报告来自 Anthropic Institute——一个专注于 AI 社会影响的内部研究机构——而非常规的工程或产品博客。这个选择本身就是一个信号:这是一次刻意的政策表态,而非技术记录。

Anthropic 内部显然存在张力:他们既在加速推进前沿能力,同时又在公开呼吁减速机制。这种张力不是矛盾,而是他们在说:「正因为我们知道这条路走到哪里,所以我们需要未雨绸缪地确保刹车踏板存在。」

不论后续的政策讨论走向何方,这篇报告最直接的价值在于它提供了一组真实的内部数据——代码贡献比例、研究判断准确率、任务成功率——作为观察 AI 能力边界的锚点。这些数字值得认真对待。

原文链接:When AI Builds Itself — Anthropic Institute,2026 年 6 月 4 日

关于

关注我获取更多资讯

月球基地博客公众号二维码,扫码关注获取更多 AI 与编程资讯
📢 公众号
月球基地博客作者个人微信二维码,扫码交流 AI 与编程话题
💬 个人号
使用 Hugo 构建
主题 StackJimmy 设计