10 · 真实 AI 智能体与真实工作：名义产出暴涨，实际价值趋零？

Source: One Useful Thing (Ethan Mollick / Substack) 作者 / Author: Ethan Mollick 发布日期: 2025-09-29　|　抓取日期: 2026-06-19 主题: ai-transformation

一句话

Mollick 用「17 份 PPT」这个具体案例，把 AI Agent 落地的最核心风险说清楚了——AI 会无限放大「做了」与「有价值」之间的鸿沟，这正是剑桥图灵子用宏观经济「货币幻觉」框架来解剖它的切入口。

核心论点（英中对照）

EN: AI has crossed a threshold where it can perform "real, economically relevant work" through autonomous agents.
中: AI 已越过阈值，可通过自主智能体完成「真实的、具有经济价值的工作」。
EN: The major reason AI lost to human experts in OpenAI's test was "not hallucinations and errors, but a failure to format results well or follow instructions exactly."
中: AI 在 OpenAI 专家级测试中落败，主因不是幻觉或错误，而是格式化输出与精确遵循指令的能力不足。
EN: METR's measurements show exponential gains in "the length of tasks that AI can accomplish alone with at least 50% accuracy" from GPT-3 through GPT-5 across five years.
中: METR 测量数据显示：从 GPT-3 到 GPT-5 五年间，AI 能以 ≥50% 准确率独立完成的任务时长呈指数级增长。
EN: Claude Sonnet 4.5 successfully reproduced an economics paper by independently reading the paper, opening the archive, sorting through files, and converting statistical code from STATA to Python.
中: Claude Sonnet 4.5 自主阅读论文、检索数据存档、将统计代码从 STATA 转写为 Python，独立复现了一篇经济学论文的全部结论。
EN: "Without thoughtfulness about WHY we do work...we are all going to drown in a wave of AI content."
中: 「如果不认真思考我们为何要做某项工作……我们都将淹没在 AI 内容的浪潮之中。」
EN: The recommended workflow yields "work done forty percent faster and sixty percent cheaper" while maintaining human control.
中: 推荐的人机协作工作流可实现「快 40%、便宜 60%」，同时保留人类控制权。
EN: "The difference between transformative and destructive AI futures isn't in the AI, it's in how we choose to use it."
中: 「AI 带来变革性还是破坏性未来，关键不在 AI 本身，而在于我们如何选择使用它。」
EN: AI handling individual tasks does not equal job replacement, since employment comprises multiple interconnected functions.
中: AI 处理单项任务 ≠ 取代岗位——一份工作由多个相互关联的职能构成，自动化单点并不等于裁员。

精译（高信息量段落）

1. OpenAI 专家测试——令人不安的输

OpenAI 设计了一批需要专业人士花费「四到七小时完成」的任务，受试人员平均拥有 14 年行业经验。最终人类专家「险胜」——但 AI 落败的主因并非幻觉或根本性错误，而是格式不达标、未能精确遵循指令。这意味着：AI 在「能力」层面已逼近人类专家，差距更多来自「执行规范」，这是一个工程上可以快速弥合的问题。

2. 复现经济学论文——学术复现危机的解药？

Mollick 展示了 Claude Sonnet 4.5 独立复现一篇经济学论文的全过程：自主阅读论文、打开数据存档、整理文件、将统计代码从 STATA 转写为 Python，最终验证所有结论。这一能力若规模化，可能从根本上解决学术界长期困扰的「复现危机」——大量论文结论因无人复现而悄然存疑。

3. 17 份 PPT——货币幻觉的工作场景版

Mollick 做了一个实验：把一份公司内部备忘录交给 AI，让它生成 PowerPoint。AI 轻松产出了 17 个不同版本。这个案例的恐怖之处不在于「AI 做了 17 份 PPT」，而在于：没有人问过「我们真的需要 PPT 吗？」。当生产边际成本趋零，「做」这个动作本身就会和「有价值」完全脱钩。

4. 推荐工作流——40% 快、60% 便宜

Mollick 提出三步人机协作框架：① 先把任务完整交给 AI 尝试；② 审查结果，必要时纠错；③ 若 AI 不足则人工完成。这个流程在保留人类判断权的前提下，实现了「快 40%、便宜 60%」的效率提升——是目前最务实、风险最可控的 Agent 落地路径。

金句（短视频字幕 / 标题备选）

"Without thoughtfulness about WHY we do work...we are all going to drown in a wave of AI content." —— 「不思考为什么要做这件事，我们都会淹没在 AI 内容的洪水里。」
"The difference between transformative and destructive AI futures isn't in the AI, it's in how we choose to use it." —— 「决定 AI 是变革还是破坏的，不是 AI，是我们怎么用它。」
AI 落败的原因不是犯错，而是格式不对——这比「AI 会幻觉」更令人警惕。
17 份 PPT，没有一份有人问：「我们真的需要 PPT 吗？」
任务可以被自动化，但判断「这个任务值不值得做」，至今只有人能做。

剑桥图灵子的加工角度

反共识 / 框架重构

量化宏观透镜：货币幻觉 × 组织熵增

宏观经济中的「货币幻觉」（money illusion）是指：名义数字膨胀（工资数字上涨），但实际购买力不变甚至下降。AI 加速正在组织内部制造一个结构性的「工作量幻觉」：

维度	货币幻觉（宏观）	AI 工作量幻觉（组织）
名义量	工资数字 ↑	PPT 数量、报告页数、邮件频率 ↑
实际量	购买力不变	决策质量、信息密度不变甚至 ↓
驱动力	货币供应扩张	AI 生成边际成本 → 0
受害者	误以为自己变富的工人	误以为自己变高效的组织
诊断指标	CPI / PPI 剪刀差	会议数 vs 决策速度、文档页数 vs 执行质量

组织熵增的诊断四问（图灵子版）：

你们团队过去 90 天，AI 生成的文档/报告数量增长了多少倍？执行的决策数量呢？
会议准备材料平均页数涨了，但会议时长缩短了吗？
有多少 AI 产出的内容，最终进入了「无人阅读」的共享盘？
如果你的团队明天失去 AI 工具，哪些工作会停止——是「做事」还是「做决定」？

若前三问答案是「是/涨了」、第四问答案是「做事停了但决定照常」，说明你的组织已经进入 AI 驱动的熵增陷阱：用名义产出的膨胀掩盖实际判断力的萎缩。

用 17 份 PPT 类比量化：

假设每人每天生成 3 份以前需要 2 小时的 AI 文档（边际成本 ≈ 0），但组织的决策吞吐量（每周可执行决策数）固定在 N。那么：

文档/决策比率 = 从 1:1 → 可能达到 10:1 甚至 50:1
这就是组织层面的「名义 GDP 暴涨、实际 TFP 停滞」

这不是生产率提升，这是有组织的自我欺骗。

我的判断（原作者没说，图灵子视角补充）

Mollick 的警告是正确的，但他停在了「需要人类判断」这个结论上，没有给出可量化的早期预警信号。

从一手 ML 工程 + 量化宏观的双重视角，我认为：

「AI 组织熵增」会优先在以下三类职能爆发，且管理层通常是最后发现的人：

中间层汇报职能（报告撰写、会议纪要、PPT 制作）：AI 边际成本 → 0，但这类工作的存在本身就是为了向上传递信息——当信息传递成本归零，「有没有人真的读了这份报告」的问题就被永久悬置了。
合规/法务/风控文档：AI 可以生成格式完美的合规文档，但合规本质是「有人对结果负责」，而不是「有文档存档」。AI 文档泛滥会制造「看起来合规」的假象，真正的风险在积累。
客户沟通/销售材料：个性化变得无限便宜，但接受方（客户）的注意力总量固定——这是一个供给侧无限扩张、需求侧（注意力）固定的市场，结局是所有个性化内容都变得无效。

诊断标准（可操作）：

如果你的团队的 AI 使用量（token 消耗/文件生成数）与可量化业务产出（收入/付费用户/决策执行率）的相关性 < 0.3，你已经在熵增区间内。

短视频脚本骨架（60-90s）

Hook（3s）： 「一份备忘录，AI 给你生成 17 份 PPT——然后呢？」
冲突 / 反共识（15s）： 大家都在讲 AI 提升效率，但没人注意到：当做一件事的成本趋向于零，「做了」就和「有价值」彻底脱钩了。经济学有个词叫货币幻觉——工资数字涨了但购买力没变。AI 正在组织里制造同样的幻觉：产出数字爆炸，但决策质量原地踏步。
论证（30s）： Ethan Mollick 在 One Useful Thing 做了个实验——把一份公司 memo 扔给 AI，让它做 PPT。AI 出了 17 份。没有一个人问「我们需要 PPT 吗？」。METR 的数据显示，从 GPT-3 到 GPT-5，AI 能独立完成的任务时长五年内指数增长。OpenAI 的测试里，AI 输给专家的原因不是犯错——是格式不对。能力差距在收窄，但判断差距一直在那。
图灵子落点（15s）： 从量化视角我给你一个诊断标准：你团队的 AI 使用量和可量化业务产出的相关性低于 0.3，你已经在熵增区间了。AI 能自动化任务，但「这个任务值不值得做」这个判断，永远只有人能做。
CTA： 「评论区告诉我：你们公司的 AI 输出，有多少真的被决策层读了？」

长文大纲

H2 一：AI Agent 已跨过门槛——但这不是你以为的那个门槛
OpenAI 专家测试：AI 输在哪里
METR 能力曲线：五年指数级增长意味着什么
「格式问题」比「幻觉问题」更危险
H2 二：17 份 PPT——组织内部的货币幻觉
货币幻觉的经济学定义
AI 如何在组织内制造「工作量幻觉」
名义产出 vs 实际决策质量：两条正在分叉的曲线
H2 三：熵增的三个早发区域
中间层汇报职能
合规/风控文档
客户沟通/销售材料
H2 四：诊断工具——你的组织在哪里？
组织熵增四问
可量化预警指标：AI 使用量 vs 业务产出相关性
「文档/决策比率」作为新型管理指标
H2 五：出路——Mollick 的 40%/60% 工作流 + 图灵子的判断力优先原则
人机协作三步法（原文）
图灵子补充：判断力是稀缺资源，应该往哪里集中
实际落地：哪些工作该交给 AI，哪些判断必须留给人
H2 六：对创始人 / 团队负责人的一句话建议
学术复现危机的启示：AI 放大「做」的速度，人必须决定「做什么值得做」

待核实 / 风险

OpenAI 测试细节：文中提及「专家平均 14 年经验」「4-7 小时任务」，但原始测试报告/论文未经直接核对，引用前需确认 OpenAI 官方来源。
METR 数据：「从 GPT-3 到 GPT-5 五年指数增长」的具体数字未获取，抓取摘要未包含原始图表数据，引用时需注明「来自 Mollick 引述 METR」。
40%/60% 数字来源：Mollick 的「快 40%、便宜 60%」数字来源于哪项研究未明确，可能是综合多项研究的估算。
Claude Sonnet 4.5 复现实验：具体是哪篇经济学论文未披露，无法独立核实复现结果的可靠性。
本文抓取状态：Substack 内容已成功抓取，非付费墙限制内容，ok = true。但部分段落为摘要性提取，非完整原文逐字对照。