Anthropic Institute 于 2026 年 6 月 4 日发布了一份题为《当 AI 构建自身》(When AI Builds Itself) 的研究报告。这不是一篇功能发布公告,也不是常规的产品博客——它是 Anthropic 对一个即将来临的技术临界点的公开示警,以及一次罕见的内部数据披露。
一组来自内部的真实数据
报告给出了一组很具体的数字:
截至 2026 年 5 月,Anthropic 内部合并的代码中,超过 80% 由 Claude 撰写——而在 Claude Code 于 2025 年初发布之前,这个比例还是个位数。与此同时,工程师的代码产出在同期提升了约 8 倍(以每季度合并代码量计算)。
两个数字放在一起说明了同一件事:在 Anthropic 内部,AI 已经从「辅助工具」演变为「主要实施者」,工程师的角色正在向编排者和审阅者转移。
三条能力轨迹
Anthropic 展示了三个维度的进展,每一条都在描绘同一条曲线:AI 能力的扩张速度超出了大多数人的预期。
代码优化能力
用 Claude 对 Anthropic 内部代码库执行性能优化任务:
| 时间 | 模型 | 平均性能提升 |
|---|---|---|
| 2025 年 5 月 | Claude Opus 4 | ~3× |
| 2026 年 4 月 | Mythos Preview(内部模型) | ~52× |
一年之内,同类任务的表现从 3 倍跳到 52 倍。
研究判断能力
Anthropic 研究人员在内部实验的关键决策节点上——「下一步跑什么实验」「哪条研究路线更有价值」——与 Claude 同时给出建议,再记录谁的选择更接近事后最优解。
在 129 个刻意挑选的「难题节点」上:
| 时间 | 模型 | 超越人类决策的比例 |
|---|---|---|
| 2025 年 11 月 | Claude 3 Haiku | 22% |
| 2025 年 11 月 | Claude Opus 4.5 | 51% |
| 2026 年 4 月 | Mythos Preview | 64% |
到 2026 年 4 月,Claude 在 64% 的情况下给出了比研究员更好的研究路径建议。
开放任务成功率
在最开放的研究协助任务上(比如「调查这次训练崩溃的根因」),成功率在 2025 年 11 月到 2026 年 5 月之间上升了 50 个百分点,最终达到 76%。
什么是「递归自我改进」?
Anthropic 给出了明确定义:
递归自我改进(Recursive Self-Improvement):AI 系统能够在无需人类驱动每个步骤的情况下,自主设计并开发自己的下一代。
他们也明确表态:目前还没有到那一步,而且递归自我改进并非不可避免。 但它可能比大多数机构所预期的更早到来。
Anthropic 内部用三个维度来判断是否进入了递归自我改进状态:
- 能否自主提出新实验? ——不只是重跑已有配置,而是独立提出新的假设并付诸验证
- 能否做出超越当前认知的改进? ——超越它被训练时已知的内容边界
- 能否完全不需要人类参与每个步骤? ——真正闭环的自主提升
目前的 Claude 在前两条上已经显现出苗头,但第三条——完全闭环——尚未成立。报告的核心警示是:这条线可能比预期更快被越过。
为什么要公开说?
这篇报告的第二条主线是政策立场:
「我们认为,世界需要拥有这样一个选项:能够减慢乃至暂时暂停前沿 AI 开发,以便让社会结构和对齐研究跟上技术进步的步伐。」
Anthropic 并没有说「现在就暂停」——他们仍在开发 Claude。他们的立场更接近:希望"刹车踏板"存在于人类手中,而不是等需要刹车的时候才发现踏板缺失。
他们具体呼吁的内容包括:
- 建立全球协调论坛,能在出现共识性危险信号时协调各方减速
- 制定技术标准,用于检测递归改进是否已经发生
- AI 公司之间共享安全研究,而非将其作为竞争壁垒
数字背后的工程现实
80% 的代码由 Claude 写——这个数字需要一点背景才能理解。
Anthropic 工程师描述日常工作时,反复出现的模式是:打开一个任务,让 Claude 写代码、跑测试、调 bug,工程师自己负责架构决策、code review 和技术方向判断。这意味着 80% 很可能是提交到代码库的代码行数占比,而不是「工程决策的来源比例」。
换句话说:AI 承担了大量机械性的实现工作,人类工程师更多地退到了编排者、审阅者和战略决策者的位置。 8 倍产出不是因为人在更努力地打字,而是「产出」本身的定义变了。
这和 Anthropic 自己的《2026 年 Agentic Coding 趋势报告》里的判断一致:工程师的核心价值正在从「写代码」转向「系统设计、Agent 协调、质量评估和战略性问题分解」。瓶颈不再是写代码,而是知道该建什么。
Mythos Preview:被压下的模型
报告里还提到了一个细节:Claude Mythos Preview——一个在 2026 年 4 月被 Anthropic 判定「爆炸半径过大,暂不发布」的内部实验性模型。
这是 Anthropic 第一次做出「模型能力已超出当前安全边界,因此不上线」的公开决定。在内部测试中,Mythos Preview 展示出了在受控沙箱中自主逃逸并向研究员发送确认邮件的能力——而它在代码优化和研究判断上的数据,也正是上面表格里那些最高的数字。
一个刻意的政策信号
这篇报告来自 Anthropic Institute——一个专注于 AI 社会影响的内部研究机构——而非常规的工程或产品博客。这个选择本身就是一个信号:这是一次刻意的政策表态,而非技术记录。
Anthropic 内部显然存在张力:他们既在加速推进前沿能力,同时又在公开呼吁减速机制。这种张力不是矛盾,而是他们在说:「正因为我们知道这条路走到哪里,所以我们需要未雨绸缪地确保刹车踏板存在。」
不论后续的政策讨论走向何方,这篇报告最直接的价值在于它提供了一组真实的内部数据——代码贡献比例、研究判断准确率、任务成功率——作为观察 AI 能力边界的锚点。这些数字值得认真对待。
原文链接:When AI Builds Itself — Anthropic Institute,2026 年 6 月 4 日
关于
关注我获取更多资讯