10 · 真实 AI 智能体与真实工作:名义产出暴涨,实际价值趋零?
Source: One Useful Thing (Ethan Mollick / Substack) 作者 / Author: Ethan Mollick 发布日期: 2025-09-29 | 抓取日期: 2026-06-19 主题: ai-transformation
一句话
Mollick 用「17 份 PPT」这个具体案例,把 AI Agent 落地的最核心风险说清楚了——AI 会无限放大「做了」与「有价值」之间的鸿沟,这正是剑桥图灵子用宏观经济「货币幻觉」框架来解剖它的切入口。
核心论点(英中对照)
- EN: AI has crossed a threshold where it can perform "real, economically relevant work" through autonomous agents.
-
中: AI 已越过阈值,可通过自主智能体完成「真实的、具有经济价值的工作」。
-
EN: The major reason AI lost to human experts in OpenAI's test was "not hallucinations and errors, but a failure to format results well or follow instructions exactly."
-
中: AI 在 OpenAI 专家级测试中落败,主因不是幻觉或错误,而是格式化输出与精确遵循指令的能力不足。
-
EN: METR's measurements show exponential gains in "the length of tasks that AI can accomplish alone with at least 50% accuracy" from GPT-3 through GPT-5 across five years.
-
中: METR 测量数据显示:从 GPT-3 到 GPT-5 五年间,AI 能以 ≥50% 准确率独立完成的任务时长呈指数级增长。
-
EN: Claude Sonnet 4.5 successfully reproduced an economics paper by independently reading the paper, opening the archive, sorting through files, and converting statistical code from STATA to Python.
-
中: Claude Sonnet 4.5 自主阅读论文、检索数据存档、将统计代码从 STATA 转写为 Python,独立复现了一篇经济学论文的全部结论。
-
EN: "Without thoughtfulness about WHY we do work...we are all going to drown in a wave of AI content."
-
中: 「如果不认真思考我们为何要做某项工作……我们都将淹没在 AI 内容的浪潮之中。」
-
EN: The recommended workflow yields "work done forty percent faster and sixty percent cheaper" while maintaining human control.
-
中: 推荐的人机协作工作流可实现「快 40%、便宜 60%」,同时保留人类控制权。
-
EN: "The difference between transformative and destructive AI futures isn't in the AI, it's in how we choose to use it."
-
中: 「AI 带来变革性还是破坏性未来,关键不在 AI 本身,而在于我们如何选择使用它。」
-
EN: AI handling individual tasks does not equal job replacement, since employment comprises multiple interconnected functions.
- 中: AI 处理单项任务 ≠ 取代岗位——一份工作由多个相互关联的职能构成,自动化单点并不等于裁员。
精译(高信息量段落)
1. OpenAI 专家测试——令人不安的输
OpenAI 设计了一批需要专业人士花费「四到七小时完成」的任务,受试人员平均拥有 14 年行业经验。最终人类专家「险胜」——但 AI 落败的主因并非幻觉或根本性错误,而是格式不达标、未能精确遵循指令。这意味着:AI 在「能力」层面已逼近人类专家,差距更多来自「执行规范」,这是一个工程上可以快速弥合的问题。
2. 复现经济学论文——学术复现危机的解药?
Mollick 展示了 Claude Sonnet 4.5 独立复现一篇经济学论文的全过程:自主阅读论文、打开数据存档、整理文件、将统计代码从 STATA 转写为 Python,最终验证所有结论。这一能力若规模化,可能从根本上解决学术界长期困扰的「复现危机」——大量论文结论因无人复现而悄然存疑。
3. 17 份 PPT——货币幻觉的工作场景版
Mollick 做了一个实验:把一份公司内部备忘录交给 AI,让它生成 PowerPoint。AI 轻松产出了 17 个不同版本。这个案例的恐怖之处不在于「AI 做了 17 份 PPT」,而在于:没有人问过「我们真的需要 PPT 吗?」。当生产边际成本趋零,「做」这个动作本身就会和「有价值」完全脱钩。
4. 推荐工作流——40% 快、60% 便宜
Mollick 提出三步人机协作框架:① 先把任务完整交给 AI 尝试;② 审查结果,必要时纠错;③ 若 AI 不足则人工完成。这个流程在保留人类判断权的前提下,实现了「快 40%、便宜 60%」的效率提升——是目前最务实、风险最可控的 Agent 落地路径。
金句(短视频字幕 / 标题备选)
-
"Without thoughtfulness about WHY we do work...we are all going to drown in a wave of AI content." —— 「不思考为什么要做这件事,我们都会淹没在 AI 内容的洪水里。」
-
"The difference between transformative and destructive AI futures isn't in the AI, it's in how we choose to use it." —— 「决定 AI 是变革还是破坏的,不是 AI,是我们怎么用它。」
-
AI 落败的原因不是犯错,而是格式不对——这比「AI 会幻觉」更令人警惕。
-
17 份 PPT,没有一份有人问:「我们真的需要 PPT 吗?」
-
任务可以被自动化,但判断「这个任务值不值得做」,至今只有人能做。
剑桥图灵子的加工角度
反共识 / 框架重构
量化宏观透镜:货币幻觉 × 组织熵增
宏观经济中的「货币幻觉」(money illusion)是指:名义数字膨胀(工资数字上涨),但实际购买力不变甚至下降。AI 加速正在组织内部制造一个结构性的「工作量幻觉」:
| 维度 | 货币幻觉(宏观) | AI 工作量幻觉(组织) |
|---|---|---|
| 名义量 | 工资数字 ↑ | PPT 数量、报告页数、邮件频率 ↑ |
| 实际量 | 购买力不变 | 决策质量、信息密度不变甚至 ↓ |
| 驱动力 | 货币供应扩张 | AI 生成边际成本 → 0 |
| 受害者 | 误以为自己变富的工人 | 误以为自己变高效的组织 |
| 诊断指标 | CPI / PPI 剪刀差 | 会议数 vs 决策速度、文档页数 vs 执行质量 |
组织熵增的诊断四问(图灵子版):
- 你们团队过去 90 天,AI 生成的文档/报告数量增长了多少倍?执行的决策数量呢?
- 会议准备材料平均页数涨了,但会议时长缩短了吗?
- 有多少 AI 产出的内容,最终进入了「无人阅读」的共享盘?
- 如果你的团队明天失去 AI 工具,哪些工作会停止——是「做事」还是「做决定」?
若前三问答案是「是/涨了」、第四问答案是「做事停了但决定照常」,说明你的组织已经进入 AI 驱动的熵增陷阱:用名义产出的膨胀掩盖实际判断力的萎缩。
用 17 份 PPT 类比量化:
假设每人每天生成 3 份以前需要 2 小时的 AI 文档(边际成本 ≈ 0),但组织的决策吞吐量(每周可执行决策数)固定在 N。那么:
- 文档/决策比率 = 从 1:1 → 可能达到 10:1 甚至 50:1
- 这就是组织层面的「名义 GDP 暴涨、实际 TFP 停滞」
这不是生产率提升,这是有组织的自我欺骗。
我的判断(原作者没说,图灵子视角补充)
Mollick 的警告是正确的,但他停在了「需要人类判断」这个结论上,没有给出可量化的早期预警信号。
从一手 ML 工程 + 量化宏观的双重视角,我认为:
「AI 组织熵增」会优先在以下三类职能爆发,且管理层通常是最后发现的人:
-
中间层汇报职能(报告撰写、会议纪要、PPT 制作):AI 边际成本 → 0,但这类工作的存在本身就是为了向上传递信息——当信息传递成本归零,「有没有人真的读了这份报告」的问题就被永久悬置了。
-
合规/法务/风控文档:AI 可以生成格式完美的合规文档,但合规本质是「有人对结果负责」,而不是「有文档存档」。AI 文档泛滥会制造「看起来合规」的假象,真正的风险在积累。
-
客户沟通/销售材料:个性化变得无限便宜,但接受方(客户)的注意力总量固定——这是一个供给侧无限扩张、需求侧(注意力)固定的市场,结局是所有个性化内容都变得无效。
诊断标准(可操作):
如果你的团队的 AI 使用量(token 消耗/文件生成数)与可量化业务产出(收入/付费用户/决策执行率)的相关性 < 0.3,你已经在熵增区间内。
短视频脚本骨架(60-90s)
-
Hook(3s): 「一份备忘录,AI 给你生成 17 份 PPT——然后呢?」
-
冲突 / 反共识(15s): 大家都在讲 AI 提升效率,但没人注意到:当做一件事的成本趋向于零,「做了」就和「有价值」彻底脱钩了。经济学有个词叫货币幻觉——工资数字涨了但购买力没变。AI 正在组织里制造同样的幻觉:产出数字爆炸,但决策质量原地踏步。
-
论证(30s): Ethan Mollick 在 One Useful Thing 做了个实验——把一份公司 memo 扔给 AI,让它做 PPT。AI 出了 17 份。没有一个人问「我们需要 PPT 吗?」。METR 的数据显示,从 GPT-3 到 GPT-5,AI 能独立完成的任务时长五年内指数增长。OpenAI 的测试里,AI 输给专家的原因不是犯错——是格式不对。能力差距在收窄,但判断差距一直在那。
-
图灵子落点(15s): 从量化视角我给你一个诊断标准:你团队的 AI 使用量和可量化业务产出的相关性低于 0.3,你已经在熵增区间了。AI 能自动化任务,但「这个任务值不值得做」这个判断,永远只有人能做。
-
CTA: 「评论区告诉我:你们公司的 AI 输出,有多少真的被决策层读了?」
长文大纲
- H2 一:AI Agent 已跨过门槛——但这不是你以为的那个门槛
- OpenAI 专家测试:AI 输在哪里
- METR 能力曲线:五年指数级增长意味着什么
-
「格式问题」比「幻觉问题」更危险
-
H2 二:17 份 PPT——组织内部的货币幻觉
- 货币幻觉的经济学定义
- AI 如何在组织内制造「工作量幻觉」
-
名义产出 vs 实际决策质量:两条正在分叉的曲线
-
H2 三:熵增的三个早发区域
- 中间层汇报职能
- 合规/风控文档
-
客户沟通/销售材料
-
H2 四:诊断工具——你的组织在哪里?
- 组织熵增四问
- 可量化预警指标:AI 使用量 vs 业务产出相关性
-
「文档/决策比率」作为新型管理指标
-
H2 五:出路——Mollick 的 40%/60% 工作流 + 图灵子的判断力优先原则
- 人机协作三步法(原文)
- 图灵子补充:判断力是稀缺资源,应该往哪里集中
-
实际落地:哪些工作该交给 AI,哪些判断必须留给人
-
H2 六:对创始人 / 团队负责人的一句话建议
- 学术复现危机的启示:AI 放大「做」的速度,人必须决定「做什么值得做」
待核实 / 风险
- OpenAI 测试细节:文中提及「专家平均 14 年经验」「4-7 小时任务」,但原始测试报告/论文未经直接核对,引用前需确认 OpenAI 官方来源。
- METR 数据:「从 GPT-3 到 GPT-5 五年指数增长」的具体数字未获取,抓取摘要未包含原始图表数据,引用时需注明「来自 Mollick 引述 METR」。
- 40%/60% 数字来源:Mollick 的「快 40%、便宜 60%」数字来源于哪项研究未明确,可能是综合多项研究的估算。
- Claude Sonnet 4.5 复现实验:具体是哪篇经济学论文未披露,无法独立核实复现结果的可靠性。
- 本文抓取状态:Substack 内容已成功抓取,非付费墙限制内容,ok = true。但部分段落为摘要性提取,非完整原文逐字对照。