AI 时代的核心壁垒:40 万份 Claude Code 会话,与正在发生的“软件逆转”

Anthropic 分析了 23.5 万用户的近 40 万份 Claude Code 会话,发现决定 AI 编程生产力的不再是编程背景,而是领域专长:非程序员的成功率与工程师几乎持平,真正拉开差距的是你对问题本身理解多深。但 Anthropic 也提醒,这种“专业红利”未必长期持续。

阅读时长: 7 分钟
共 3497字
作者: longlikun

前两天(2026 年 6 月 16 日),Anthropic 发布了一项极为重磅的经济与技术研究报告——《Agentic coding and persistent returns to expertise》。在这份报告中,Anthropic 利用名为 Cleo 的隐私保护分析工具,对 23.5 万名用户在 2025 年 10 月至 2026 年 4 月期间生成的近 400,000 份 Claude Code 交互会话 进行了深度“卧底式”剖析。

同时,Reddit 的 r/ArtificialInteligence 社区也对这一报告展开了热烈讨论。这份报告和社区的反馈共同向我们揭示了一个正在发生的、颠覆性的行业共识:在 AI Agent 编程时代,能够压榨出 AI 数倍生产力的核心要素,不再是传统的编程技能(Coding Skills),而是深厚的领域知识(Domain Expertise)。

Reddit 网友将这种现象生动地称为**“软件的逆转”(The Inversion of Software)**。需要说明的是,“逆转”这个词并不是 Anthropic 报告里的提法,而是社区对这份数据的提炼。今天这篇文章,我们就来彻底拆解这份报告的核心数据,聊聊在 AI Agent 彻底普及的当下,知识工作者的核心壁垒究竟变成了什么。


一、 新型人机分工:人类负责“做什么”,Claude 负责“怎么做”

长久以来,人们对 AI 编程 Agent 的想象要么是“完全替代人类的黑盒”,要么是“只能写写单段函数的玩具”。但 Anthropic 的真实使用数据展现出了一种高度默契的新型流水线分工

研究团队构建了一个决策归因分类器,将编码过程中的决策分为两类:

  • 规划决策(Planning): 决定建造什么、采用什么架构路径、什么才算通过测试。
  • 执行决策(Execution): 决定修改哪些文件、编写具体代码、选择什么语言、运行什么命令。

数据表明,在典型的 Claude Code 会话中:

  • 人类主导了约 70% 的规划决策;
  • Claude 承担了约 80% 的执行决策。

简单来说:人类决定“What to build”,AI 决定“How to build”。 在交互结构上,一次典型的会话通常包含 4 个轮次(Turns)。人类给出一个 Prompt,平均会触发 Claude 在本地环境连续执行 10 次以上的自动化 Action(读取文件、修改代码、运行终端命令等),有时甚至超过 100 次,并平均输出 2400 字的结果。


二、 编程背景的“贬值”与非程序员的崛起

这是全篇报告中最具颠覆性、甚至有些反直觉的发现:没有写过一行代码的非专业程序员,在 AI Agent 的辅助下,其编程任务的成功率与专业软件工程师(SWE)相差无几。

Anthropic 参照美国劳工统计局(BLS)的标准职业分类(SOC),将用户划分到了 23 个主要大类中(分类时严格依据上下文和文件结构,不会因为一个人在写代码就判定他是程序员。例如,律师写脚本去筛选合同,会被归为“法律职业”)。

结果令人震惊:

  • 软件及数学相关职业的验证成功率(Verified Success)约为 30%
  • 其他非软件职业的验证成功率则达到了 26%
  • 在实际产生代码修改的会话中,这一数据是 34% vs 29%
  • 如果将标准放宽到“至少部分成功(Partial Success)”,两者的差距直接缩小到了 1%:89% vs 88%

在数据集中最大的前 10 个职业中,所有职业的编程成功率与软件工程师的差距都在 7 个百分点以内。其中,管理类职业(Management Occupations) 的验证成功率甚至略高于软件工程师。Anthropic 认为,这可能是因为管理岗位所具备的“目标拆解、分配与监督”能力,可以完美复用到对 AI Agent 的指挥上。


三、 专业的持续回报:领域专家如何“压榨” AI

既然编程背景不再是决定性壁垒,那人与人之间的生产力差距是由什么决定的?答案是:你对所要解决的问题(Domain)理解得有多深。

Anthropic 将用户的任务熟练度(Task-specific Expertise)分为 1 到 5 五个等级。需要注意的是,这里的“专家”不是看头衔,而是看任务:一个 20 年经验的高级工程师第一次写 Rust,在 Rust 任务里他就是 Novice(新手);而一个从没写过代码的会计,能够精准地向 Claude 描述月底对账的业务边界规则,并一眼看出 Claude 漏掉的边缘情况,那在这个任务里他就是 Expert(专家)。

数据显示,高水平的领域专家在使用 AI 时展现出了完全不同的超能力:

  1. 更强的驱动能力: 在新手会话中,每个 Prompt 平均触发 5 次 AI 动作和 600 字输出;而在专家会话中,每个 Prompt 能触发 12 次以上的连续动作链,并带出 3200 字的高密度高价值输出。专家更懂得如何精准描述业务、提供高质量的上下文,从而让 AI 发挥出更高的自主性。
  2. 极高的成功率与抗挫折能力:
    • 在最严格的“验证成功”标准下,新手成功率仅有 15%,而中级及以上专家的成功率跃升至 28%~33%
    • 更关键的是,当遇到 Bug、报错或 AI 误解时(即“陷入困境”的会话),19% 的新手会直接选择放弃(Abandoned),而专家和中级用户的放弃率只有 5%~7%。专家有能力在 AI 跑偏时,用业务逻辑把 AI 强行拽回正轨。

划重点:回报的曲线在“中级(Intermediate)”阶段最为陡峭。 也就是说,你不需要成为这个领域的顶级学术泰斗,只要你具备扎实的、能解决实际行业问题的“从业者眼光(Working Grasp)”,你就已经能吃掉 AI Agent 绝大部分的生产力红利了。


四、 软件工程的“逆转”与工作形态的演变

Reddit 社区在讨论这个帖子时,有一个高赞评论一针见血地指出:

“过去几十年里,软件开发最难的部分一直都是‘如何把业务知识翻译成代码’。而现在,我们正在见证软件的逆转(Inversion of Software)——实现(Implementation)变得廉价,而领域规范(Domain Specification)成了最高溢价的东西。”

这种逆转在 Anthropic 的纵向观测数据(2025 年 10 月至 2026 年 4 月)中得到了完美的印证:

  • 修 Bug(Fixing code)的会话比例从 33% 暴跌至 19%。 随着模型能力的提升,日常的小错和调试正在被 AI 内部消化。
  • 端到端、围绕代码的外围工作大幅增加。 软件运维(部署、配置、运行 Pipeline)的比例从 14% 提升到 21%;数据分析、撰写非代码文档(Prose-based documents)的比例直接翻倍(达到 20%)。
  • 任务的整体经济价值(对比自由职业市场定价)平均提升了约 25%。 这说明用户正在放手让 Claude 处理更复杂、更具端到端价值的现实问题,而不仅仅是写一两个小函数。

五、 冷静一下:这份报告自己划清的边界

热闹归热闹,Anthropic 在报告里也相当克制地标注了这项研究的几条边界,读的时候有必要一起装进脑子里:

  • 它测不到“会话结束之后”的事。 报告只能判断一次会话里用户有没有达成当下目标,至于生成的代码最终有没有被合并、上线、真的创造了商业价值,数据是看不到的。
  • 它只覆盖了交互式会话。 headless(无人值守)、被程序化嵌入、以及通过第三方 IDE 使用 Claude 的场景全部被排除在外——而这些恰恰是不少资深工程师的主战场,所以“编程背景在贬值”这个结论,对重度工程化用法可能存在低估。
  • 所有标签都来自模型“读”会话记录。 专业度、职业、是否成功,全部由分类器(主力是 Claude Sonnet 4.6)判定,并非人工逐条核对的 ground truth;经济价值也只反映相对差异,不代表绝对的美元数字。

更值得琢磨的是报告留下的一个开放问题:专家的这份红利,会一直存在吗?Anthropic 自己写道——如果未来“专业的回报”开始随时间下降,那就说明模型正在学会自己提供用户当下所贡献的那部分“判断力”。 换句话说,今天专家用业务直觉把 AI 拽回正轨的能力,可能正是下一代模型努力要内化的东西。报告标题里那个 “persistent(持续)”,本身就是一个还没有定论的赌注。


六、 启发与思考:我们该如何自处?

作为一个长期关注自动化工作流与 AI Agent 落地的技术创作者,Anthropic 的这份报告用 400k 份真实数据佐证了一个核心趋势:未来的超级个体,大概率不是那些只会死记硬背 API 的代码工人,而是那些深刻洞察业务痛点、能够把复杂现实问题拆解为清晰逻辑的“问题解决者”。

编程正在从一种“特定职业的特权”,变成像“写 PPT、发邮件”一样各行各业通用的基础设施级基本技能

如果你是非技术背景的业务专家,不要再对编程产生恐惧。你的行业经验、业务逻辑、对边缘场景的敏锐度,就是指挥 AI Agent 最强大的代码。

如果你是软件工程师,我们也需要迫切地向“上游”转型。如果我们的价值仅仅停留在“把别人的需求翻译成具体的语言代码”,那么这部分价值正在被 AI 以极低的成本蚕食。深入理解业务、提升架构设计能力、成为某个特定行业的垂直领域专家,是当前更稳妥的方向——尽管正如上一节所说,这条护城河能挡多久,Anthropic 自己也没有打包票。

AI 并没有消灭专业的价值,它只是剥离了枯燥的重复劳动,让**“深度理解问题”**重新成为了这个时代最昂贵的资产。


参考资料:

关于

关注我获取更多资讯

月球基地博客公众号二维码,扫码关注获取更多 AI 与编程资讯
📢 公众号
月球基地博客作者个人微信二维码,扫码交流 AI 与编程话题
💬 个人号
使用 Hugo 构建
主题 StackJimmy 设计