前言
去年这个时候,我写了一篇 《站在2025年,回顾和展望AI》 。当时我的观点是:AI 是放大器,掌握框架、细节交给 AI。
一年过去,这个结论没错,但它已经不够用了。
因为"让 AI 处理细节"这件事本身,已经分化出了天差地别的好几层。停在不同层级的人,生产力差距正在迅速拉开。
而我自己,正好又卡在了一个新的瓶颈上。这篇文章就是记录我怎么看这个瓶颈,以及我认为的下一阶段是什么。
我用 AI 的五个阶段
先回顾一下这几年我个人的使用演进:
| 阶段 | 形态 | 代表 | 我做什么 |
|---|---|---|---|
| L1 | 网页对话 | ChatGPT 网页 | 复制问题进去,复制答案出来 |
| L2 | IDE 插件 | GitHub Copilot | AI 在我身边做补全,我主导 |
| L3 | AI 原生 IDE | Cursor | AI 可以改多个文件,我审阅 |
| L4 | 终端原生 Agent | Claude Code | AI 能碰我整台电脑,我对话确认 |
| L5 | ? | ? | ? |
这条线的本质是一件事:AI 的操作边界在不断扩大,人类被从一层一层的具体操作里解放出来。
每一跃,都是一次数量级的跃迁。
瓶颈:顶级专家 3 个 Max 20x 都不够用,我一个 Pro 都用不完
我最近买了 Claude 的 Max 5x,结果是:我发现自己已经用不完了。
与此同时,一些顶级开发者公开说,自己同时开 3 个 Max 20x 账号都嫌不够用。
这个对比让我停下来想——同样的工具,为什么他们能烧掉十几倍的算力?专家这么牛,竟然都不够用,到底差距在哪?我该怎么才能追上去?
想了一圈,答案很清楚:
瓶颈在我。
每一个任务,我都还在和 Claude Code 反复对话:
- “先搜一下相关代码再改”
- “这个方案不对,换一个思路”
- “先跑测试”
- “确认一下再提交”
我同时控制 3~5 个 Agent,脑子已经开始累了。人类的上下文切换是有成本的,撑死管 5~7 个。
这种感觉挺微妙的——我手里拿着火箭,但我还在一档一档换挡。
下一阶段:从"操作者"到"立法者"
这个瓶颈怎么破?
观察了一圈 Anthropic 的公开文档、Boris Cherny(Claude Code 之父)的工作流分享、以及一些重度用户的实践之后,我的结论是:
下一阶段不是"管更多 Agent",而是你不再亲自管 Agent。
听起来玄,拆开讲其实很实际:
| L4(我现在) | L5(下一阶段) | |
|---|---|---|
| 我在循环里 | 是 | 否 |
| 我做什么 | 对话、确认、纠错 | 写规则、定验收、审仲裁 |
| AI 什么时候停 | 我说停 | 规则说过了就停 |
| 我离开键盘 8 小时 | 系统停在原地等我 | 系统已经自己推进了 8 小时 |
L5 的核心判断标准只有一条:你离开键盘 8 小时回来,系统是停在原地等你,还是已经自己跑完了?
L5 阶段,你的工作重心彻底换了:
- 写 Spec(规格说明),不写 Prompt
- 定义验收标准(测试、lint、人审 checkpoint),不审每一步
- 设计 hooks 和 guard rails,不做确认按钮
- 搭 feedback loop(失败自动回灌给 AI 继续迭代),不手动重试
你早上打开电脑,看到的不再是"Claude 在等我批准什么",而是 “昨晚 12 个 PR 里 9 个已经通过自动验收了,3 个标了红等我判断”。
你做的唯一的事是:看红色的那 3 个,以及修补让它们红的那条规则。
其实我已经在往那爬了:L4.5 的真实体感
说 L5 像在说远方,但其实我的 L4 已经在往 L4.5 过渡了。
现在的体感已经不太一样:Claude Code 可以远程、后台跑任务,我不再逐行盯着它怎么写。一天里的大部分时间,我都在看它交给我的汇报,然后做几件事:
- 判断这个方向对不对
- 决定要不要继续、换思路、还是打回重做
- 在关键节点给出判断和决策
- 处理它搞不定、卡住的地方
说白了,我现在更像一个远程指挥的领导,而不是程序员。
代码不是我写的,但方向是我定的,边界是我划的,质量是我判的。这种状态挺奇妙的——节奏完全变了,一天能推进的事情明显变多,但每一个决策的权重也更大。错一个方向,下游好几个小时的输出可能都白搭。
这还没到 L5。L5 是连"看汇报"这个环节都部分交出去,规则自动过滤掉 80% 的内容,我只看剩下的 20%。但 L4.5 这个过渡态已经足够让我感受到——管理 AI 的感觉,和自己动手写代码,完全是两种职业。
生产力差距正在拉开
这就是我想重点说的一件事——停在不同阶段的人,生产力差距正在以数量级的方式拉开。
- L1 的人,用 AI 回答问题、替自己查资料。效率提升有限,但有。
- L2、L3 的人,把 AI 嵌进了自己的代码编辑流程。效率是前者的数倍。
- L4 的人,能让 AI 跑起来、独立干完一整个任务。效率又是前者的数倍。
- L5 的人,同时有十几条任务在跑,自己只做仲裁和立法。效率再往上一个数量级。
这几层之间的门槛不是线性的。从 L1 到 L2 很容易,装个插件就行。从 L4 到 L5 非常难——它要求你重新设计你工作的整个形态。你不再是"用工具的人",你变成了"设计工具使用规则的人"。
对人的要求:既要知识密度,也要知识总量
这是最反直觉的一点。
很多人以为 AI 时代对人的要求降低了——“反正细节 AI 会做,我学个皮毛就行”。
错。完全相反。
AI 时代对人的要求提高了,而且是两个维度一起提高:
知识总量——你得知道的东西更多了。 你要判断方向、划定边界、审仲裁,这些决策都建立在你真的懂这个领域的基础上。你对一个技术栈只懂皮毛,AI 写出来的烂代码你根本看不出问题。
知识密度——你在单位时间里做出的判断要更多、更准。 L5 阶段你的日常变成这样:
- 看 10 分钟 PR 摘要,判断要不要合并
- 看 5 分钟失败报告,判断是改代码还是改规则
- 用 20 分钟写一份 Spec,定义清楚一个功能的验收边界
- 花 30 分钟 review 一条新规则,判断它会不会误伤别的任务
每一个动作都是在做决策,没有一个动作是在"执行"。
你得在更短的时间里做更多、更准的判断:看一眼就能判断 AI 会在哪翻车;写 Spec 的时候就能预判边界会爆在哪;看到一条新规则就知道它会误伤什么。
这些能力,AI 替代不了。因为它们本质是经验 + 品味 + 判断,不是信息处理。
我的判断是今年下半年到明年上半年,会出现第一个真正像样的原生 L5 产品——可能是 Anthropic 自己做,也可能是基于 Claude API 的第三方。到那时候,人与人的差距会更加大。