AI时代下弄潮儿的思考-- 避免变成“AI 驱动的低水平勤奋”

AI 这么强，人与人之间的差距到底在哪里？

最近看到一篇很有意思的文章：《我把13个顶级AI送去数学高考，并列第一居然是它们。。。》。

文章把几个主流 AI 模型拿去做高考数学卷。结果并不意外：头部模型已经非常强，很多难题都能做，甚至能拿到接近顶尖学生的分数。

这件事让我想到一个问题：

如果简单题 AI 会做，难题 AI 也会做，那以后人与人之间的差距到底体现在哪里？

高考还能筛人，一个很重要的前提是：考场上不允许使用 AI。
但真实世界不是考场。真实世界里，大家都可以用 AI。牛人可以用，普通人也可以用。

那么问题就变了。

过去人与人的差距，很多时候体现在“谁会做”。谁会写代码，谁会查资料，谁会推公式，谁会写文章，谁会做 PPT，谁就有优势。

但 AI 出现之后，很多“执行层”的差距正在被压缩。
不会写代码的人，可以让 AI 写一个初版；不会总结论文的人，可以让 AI 提炼要点；不会写作的人，也可以让 AI 起草一篇看起来还不错的文章。

所以，AI 并没有让人与人之间的差距消失。
它只是把差距从表层技能，推到了更底层的能力上。

我越来越觉得，AI 时代真正的差距，不是“谁更会用 AI”，而是：

谁更知道该问什么，谁更知道该信什么，谁更知道该验证什么，谁更知道该沉淀什么。

下面是我对这个问题的几点思考。

1. 问题建模能力

普通人看到一个方向，往往会先问：

“这个方向有没有论文可以发？”
“这个东西能不能做？”
“有没有现成代码？”
“能不能让 AI 帮我写一个？”

这些问题当然不是错的，但它们通常还停留在比较表层的位置。

更厉害的人会先问：

“这个领域真正的瓶颈是什么？”
“现有方法到底失败在哪里？”
“失败原因是数据不够，模型不行，工具链不完善，还是评价协议本身有问题？”
“这个问题有没有被错误定义？”
“我现在想解决的是现象，还是根因？”

这就是问题建模能力。

同样是看到“AI 做高考数学”，普通人可能只会关心哪个模型分数最高。
但更值得看的其实是：模型为什么会丢分？

它是不会做吗？
不一定。

很多时候，它是读题不稳、条件漏掉、边界没收住、长题做到后面输出崩了，或者因为输入格式有噪声而被带偏。

这背后对应的不是单纯的数学能力，而是一个更普遍的问题：

在长流程、高约束、有噪声的任务里，AI 能不能稳定地产生可验证的结果？

这个问题就比“哪个模型考了多少分”更有价值。

做科研也是一样。
如果一个人只是把问题丢给 AI，让它给几个 idea，可能很快就会得到一堆看起来不错的方向。但真正重要的是，你自己要先能定义问题。

你要知道这个问题的输入是什么，输出是什么，约束是什么，评价指标是什么，失败模式是什么，和已有工作的本质区别在哪里。

没有问题建模能力，AI 给你的东西越多，你越容易迷路。

2. 判断 AI 输出质量的能力

AI 现在最厉害的地方，不是它一定正确，而是它即使错了，也能错得很像对的。

它可以给出很完整的推理过程，很自然的表达，很像专家的语气。
但这些都不等于它真的对。

所以 AI 时代非常关键的一项能力，是判断 AI 输出质量的能力。

一个普通使用者可能会觉得：

“它说得挺有道理。”
“这个回答很完整。”
“看起来逻辑很顺。”

但更强的人会继续追问：

“它的前提是不是成立？”
“有没有偷换概念？”
“有没有遗漏边界条件？”
“有没有反例？”
“这个结论能不能被实验验证？”
“它引用的依据是否真实？”
“这个方案是否真的能跑起来？”

尤其是在研究和工程里，“看起来对”没有太大价值。
真正有价值的是“经得起验证”。

比如让 AI 分析一篇论文，它可以很快总结出贡献点、方法、实验和不足。
但你要能判断：它说的贡献是不是作者真正的贡献？它有没有把背景知识当成创新点？它有没有漏掉论文里最关键的假设？它有没有把实验结果解释过头？

再比如让 AI 写代码，它可以很快生成一个版本。
但你要能判断：代码是否真的符合需求？边界条件有没有处理？有没有安全问题？复杂度是否合理？能不能维护？有没有隐藏 bug？

AI 输出的质量，最终还是要靠人来把关。

所以，未来的差距不是“谁能让 AI 生成更多内容”，而是“谁能更快识别哪些内容是有价值的，哪些内容是垃圾，哪些内容看似正确但其实危险”。

3. AI 最容易放大“伪能力”

AI 会让很多人产生一种错觉：自己突然变强了。

以前一天看不完的论文，现在 AI 几分钟就能总结。
以前写不出来的文章，现在 AI 可以起草。
以前不会搭的系统，现在 AI 可以给代码。
以前想不出的方案，现在 AI 可以列出十几条。

于是人很容易误以为：我已经掌握了这些东西。

但实际上，很多时候只是 AI 替你完成了表层劳动，而你自己并没有真正理解。

这就是 AI 最容易放大的“伪能力”。

你看了 AI 总结的 20 篇论文，不代表你真的理解了这个领域。
你让 AI 写了一个项目，不代表你真的具备工程能力。
你让 AI 给了一个研究方案，不代表你真的有 research taste。
你让 AI 分析了一个漏洞，不代表你真的掌握了漏洞原理。

真正的能力，必须能脱离“看起来懂”的状态。

你要能复述问题，能讲清楚关键机制，能指出方法边界，能设计实验验证，能发现 AI 的错误，能在没有现成答案的时候继续往前推进。

AI 会让勤奋变得更容易，也会让低水平勤奋变得更隐蔽。

以前低水平勤奋可能是机械抄书、复制代码、堆材料。
现在低水平勤奋可能变成：每天让 AI 总结一堆东西，生成一堆文档，整理一堆表格，最后自己却没有形成真正的判断。

这比以前更危险。因为它看起来很忙，也看起来很高级。

4. 认知控制权

我觉得 AI 时代有一个很重要的概念：认知控制权。

所谓认知控制权，就是你到底是在控制 AI，还是被 AI 控制。

如果你只是问一句问题，然后完全跟着 AI 的回答走，那其实控制权在 AI 手里。
它说这个方向重要，你就觉得重要；它说这个方法可行，你就觉得可行；它给你列了十个步骤，你就照着做。

这种使用方式看起来是在用 AI，实际上是在被 AI 带着走。

真正厉害的人使用 AI，不是把思考外包出去，而是把 AI 放进自己的思考流程里。

他会先有自己的问题框架，然后让 AI 补充材料、生成候选方案、寻找反例、检查漏洞、加速实现。
AI 是杠杆，不是方向盘。

比如面对一个研究问题，普通人可能会问：

“帮我想一个创新点。”

更好的问法是：

“我现在观察到 A 方法在 B 场景下失败，初步怀疑原因是 C。请帮我从数据、模型、评价协议和系统实现四个角度分析这个假设是否成立，并给出可能的反例。”

这两种问法的区别，不只是 prompt 写得好不好，而是背后有没有自己的问题意识。

认知控制权越强，AI 越能放大你的能力。
认知控制权越弱，AI 越容易放大你的混乱。

5. 长期资产积累能力

AI 让一次性产出变得很便宜，但长期资产仍然很贵。

什么是长期资产？

对学生和研究者来说，长期资产可能包括：

自己的研究 taste；
自己的问题库；
自己的 benchmark；
自己的数据集；
自己的工具链；
自己的代码框架；
自己的实验记录；
自己的论文阅读体系；
自己的失败案例库；
自己的判断标准。

这些东西不是 AI 随便生成一次就能得到的。

AI 可以帮你读一篇论文，但不能自动形成你的学术品味。
AI 可以帮你写一个脚本，但不能自动形成你的工程体系。
AI 可以帮你列一个方向，但不能替你判断哪个问题值得长期投入。
AI 可以帮你总结别人的工作，但不能替你积累自己的研究资产。

真正厉害的人，会把每一次使用 AI 的过程沉淀下来。

读论文，不只是得到一份总结，而是更新自己的领域地图。
做实验，不只是跑出一个结果，而是积累一套可复用的评估流程。
写代码，不只是完成当前任务，而是沉淀成未来可以复用的模块。
分析失败，不只是修掉一个 bug，而是记录一种 failure mode。

普通人每次都从零开始问 AI。
厉害的人会把 AI 变成自己长期系统的一部分。

这也是未来差距会越来越大的地方。

因为 AI 可以让所有人都跑得更快，但只有少数人会把每一步都变成台阶。

结语

AI 确实很强，本文也出自 gpt5.5，但是经过本人的思考。
强到很多过去需要训练很久的能力，现在都可以被它快速补齐一部分。

但这并不意味着人与人之间的差距会消失。

相反，差距会变得更隐蔽，也更底层。

过去的差距可能是：

谁会做题，谁会写代码，谁会查资料。

未来的差距更可能是：

谁能定义问题，谁能判断质量，谁能验证结果，谁能掌握认知控制权，谁能积累长期资产。

AI 抹平的是执行层的差距，放大的是判断层的差距。

所以，真正值得警惕的不是 AI 太强，而是自己在 AI 的帮助下产生了“我也很强”的错觉。

把 AI 当答案机，只会变成更高效的普通人。
把 AI 当认知杠杆，才有可能变成真正厉害的人。

Report

#关于人与人之间的思考

AI时代下弄潮儿的思考-- 避免变成“AI 驱动的低水平勤奋”

https://jimi-lab.github.io/2026/06/09/AI时代下弄潮儿的思考-- 避免变成“AI 驱动的低水平勤奋”/

作者

Jimi

发布于

2026年6月9日

许可协议

AriGraph_ Learning Knowledge Graph World Models with Episodic Memory for LLM Agents 下一篇