AI 时代的核心壁垒：40 万份 Claude Code 会话，与正在发生的“软件逆转”

前两天（2026 年 6 月 16 日），Anthropic 发布了一项极为重磅的经济与技术研究报告——《Agentic coding and persistent returns to expertise》。在这份报告中，Anthropic 利用名为 Cleo 的隐私保护分析工具，对 23.5 万名用户在 2025 年 10 月至 2026 年 4 月期间生成的近 400,000 份 Claude Code 交互会话 进行了深度“卧底式”剖析。

同时，Reddit 的 r/ArtificialInteligence 社区也对这一报告展开了热烈讨论。这份报告和社区的反馈共同向我们揭示了一个正在发生的、颠覆性的行业共识：在 AI Agent 编程时代，能够压榨出 AI 数倍生产力的核心要素，不再是传统的编程技能（Coding Skills），而是深厚的领域知识（Domain Expertise）。

Reddit 网友将这种现象生动地称为**“软件的逆转”（The Inversion of Software）**。需要说明的是，“逆转”这个词并不是 Anthropic 报告里的提法，而是社区对这份数据的提炼。今天这篇文章，我们就来彻底拆解这份报告的核心数据，聊聊在 AI Agent 彻底普及的当下，知识工作者的核心壁垒究竟变成了什么。

一、新型人机分工：人类负责“做什么”，Claude 负责“怎么做”

长久以来，人们对 AI 编程 Agent 的想象要么是“完全替代人类的黑盒”，要么是“只能写写单段函数的玩具”。但 Anthropic 的真实使用数据展现出了一种高度默契的新型流水线分工。

研究团队构建了一个决策归因分类器，将编码过程中的决策分为两类：

规划决策（Planning）： 决定建造什么、采用什么架构路径、什么才算通过测试。
执行决策（Execution）： 决定修改哪些文件、编写具体代码、选择什么语言、运行什么命令。

数据表明，在典型的 Claude Code 会话中：

人类主导了约 70% 的规划决策；
Claude 承担了约 80% 的执行决策。

简单来说：人类决定“What to build”，AI 决定“How to build”。 在交互结构上，一次典型的会话通常包含 4 个轮次（Turns）。人类给出一个 Prompt，平均会触发 Claude 在本地环境连续执行 10 次以上的自动化 Action（读取文件、修改代码、运行终端命令等），有时甚至超过 100 次，并平均输出 2400 字的结果。

二、编程背景的“贬值”与非程序员的崛起

这是全篇报告中最具颠覆性、甚至有些反直觉的发现：没有写过一行代码的非专业程序员，在 AI Agent 的辅助下，其编程任务的成功率与专业软件工程师（SWE）相差无几。

Anthropic 参照美国劳工统计局（BLS）的标准职业分类（SOC），将用户划分到了 23 个主要大类中（分类时严格依据上下文和文件结构，不会因为一个人在写代码就判定他是程序员。例如，律师写脚本去筛选合同，会被归为“法律职业”）。

结果令人震惊：

软件及数学相关职业的验证成功率（Verified Success）约为 30%；
其他非软件职业的验证成功率则达到了 26%；
在实际产生代码修改的会话中，这一数据是 34% vs 29%。
如果将标准放宽到“至少部分成功（Partial Success）”，两者的差距直接缩小到了 1%：89% vs 88%。

在数据集中最大的前 10 个职业中，所有职业的编程成功率与软件工程师的差距都在 7 个百分点以内。其中，管理类职业（Management Occupations） 的验证成功率甚至略高于软件工程师。Anthropic 认为，这可能是因为管理岗位所具备的“目标拆解、分配与监督”能力，可以完美复用到对 AI Agent 的指挥上。

三、专业的持续回报：领域专家如何“压榨” AI

既然编程背景不再是决定性壁垒，那人与人之间的生产力差距是由什么决定的？答案是：你对所要解决的问题（Domain）理解得有多深。

Anthropic 将用户的任务熟练度（Task-specific Expertise）分为 1 到 5 五个等级。需要注意的是，这里的“专家”不是看头衔，而是看任务：一个 20 年经验的高级工程师第一次写 Rust，在 Rust 任务里他就是 Novice（新手）；而一个从没写过代码的会计，能够精准地向 Claude 描述月底对账的业务边界规则，并一眼看出 Claude 漏掉的边缘情况，那在这个任务里他就是 Expert（专家）。

数据显示，高水平的领域专家在使用 AI 时展现出了完全不同的超能力：

更强的驱动能力： 在新手会话中，每个 Prompt 平均触发 5 次 AI 动作和 600 字输出；而在专家会话中，每个 Prompt 能触发 12 次以上的连续动作链，并带出 3200 字的高密度高价值输出。专家更懂得如何精准描述业务、提供高质量的上下文，从而让 AI 发挥出更高的自主性。
极高的成功率与抗挫折能力：
- 在最严格的“验证成功”标准下，新手成功率仅有 15%，而中级及以上专家的成功率跃升至 28%~33%。
- 更关键的是，当遇到 Bug、报错或 AI 误解时（即“陷入困境”的会话），19% 的新手会直接选择放弃（Abandoned），而专家和中级用户的放弃率只有 5%~7%。专家有能力在 AI 跑偏时，用业务逻辑把 AI 强行拽回正轨。

划重点：回报的曲线在“中级（Intermediate）”阶段最为陡峭。 也就是说，你不需要成为这个领域的顶级学术泰斗，只要你具备扎实的、能解决实际行业问题的“从业者眼光（Working Grasp）”，你就已经能吃掉 AI Agent 绝大部分的生产力红利了。

四、软件工程的“逆转”与工作形态的演变

Reddit 社区在讨论这个帖子时，有一个高赞评论一针见血地指出：

“过去几十年里，软件开发最难的部分一直都是‘如何把业务知识翻译成代码’。而现在，我们正在见证软件的逆转（Inversion of Software）——实现（Implementation）变得廉价，而领域规范（Domain Specification）成了最高溢价的东西。”

这种逆转在 Anthropic 的纵向观测数据（2025 年 10 月至 2026 年 4 月）中得到了完美的印证：

修 Bug（Fixing code）的会话比例从 33% 暴跌至 19%。 随着模型能力的提升，日常的小错和调试正在被 AI 内部消化。
端到端、围绕代码的外围工作大幅增加。 软件运维（部署、配置、运行 Pipeline）的比例从 14% 提升到 21%；数据分析、撰写非代码文档（Prose-based documents）的比例直接翻倍（达到 20%）。
任务的整体经济价值（对比自由职业市场定价）平均提升了约 25%。 这说明用户正在放手让 Claude 处理更复杂、更具端到端价值的现实问题，而不仅仅是写一两个小函数。

五、冷静一下：这份报告自己划清的边界

热闹归热闹，Anthropic 在报告里也相当克制地标注了这项研究的几条边界，读的时候有必要一起装进脑子里：

它测不到“会话结束之后”的事。 报告只能判断一次会话里用户有没有达成当下目标，至于生成的代码最终有没有被合并、上线、真的创造了商业价值，数据是看不到的。
它只覆盖了交互式会话。 headless（无人值守）、被程序化嵌入、以及通过第三方 IDE 使用 Claude 的场景全部被排除在外——而这些恰恰是不少资深工程师的主战场，所以“编程背景在贬值”这个结论，对重度工程化用法可能存在低估。
所有标签都来自模型“读”会话记录。 专业度、职业、是否成功，全部由分类器（主力是 Claude Sonnet 4.6）判定，并非人工逐条核对的 ground truth；经济价值也只反映相对差异，不代表绝对的美元数字。

更值得琢磨的是报告留下的一个开放问题：专家的这份红利，会一直存在吗？Anthropic 自己写道——如果未来“专业的回报”开始随时间下降，那就说明模型正在学会自己提供用户当下所贡献的那部分“判断力”。 换句话说，今天专家用业务直觉把 AI 拽回正轨的能力，可能正是下一代模型努力要内化的东西。报告标题里那个 “persistent（持续）”，本身就是一个还没有定论的赌注。

六、启发与思考：我们该如何自处？

作为一个长期关注自动化工作流与 AI Agent 落地的技术创作者，Anthropic 的这份报告用 400k 份真实数据佐证了一个核心趋势：未来的超级个体，大概率不是那些只会死记硬背 API 的代码工人，而是那些深刻洞察业务痛点、能够把复杂现实问题拆解为清晰逻辑的“问题解决者”。

编程正在从一种“特定职业的特权”，变成像“写 PPT、发邮件”一样各行各业通用的基础设施级基本技能。

如果你是非技术背景的业务专家，不要再对编程产生恐惧。你的行业经验、业务逻辑、对边缘场景的敏锐度，就是指挥 AI Agent 最强大的代码。

如果你是软件工程师，我们也需要迫切地向“上游”转型。如果我们的价值仅仅停留在“把别人的需求翻译成具体的语言代码”，那么这部分价值正在被 AI 以极低的成本蚕食。深入理解业务、提升架构设计能力、成为某个特定行业的垂直领域专家，是当前更稳妥的方向——尽管正如上一节所说，这条护城河能挡多久，Anthropic 自己也没有打包票。

AI 并没有消灭专业的价值，它只是剥离了枯燥的重复劳动，让**“深度理解问题”**重新成为了这个时代最昂贵的资产。

参考资料：

Anthropic Research: Agentic coding and persistent returns to expertise
Reddit Discussion: r/ArtificialInteligence - Anthropic studied 400k Claude Code sessions

关于

关注我获取更多资讯

📢 公众号

💬 个人号

一、 新型人机分工：人类负责“做什么”，Claude 负责“怎么做”

二、 编程背景的“贬值”与非程序员的崛起

三、 专业的持续回报：领域专家如何“压榨” AI

四、 软件工程的“逆转”与工作形态的演变

五、 冷静一下：这份报告自己划清的边界

六、 启发与思考：我们该如何自处？

关于