图灵子·AI化自我进化公司· 用 AI 打造一家「自我进化的公司」——抛弃

14 · 用 AI 打造一家「自我进化的公司」——抛弃罗马军团式科层制

Source: Y Combinator — Tom Blomfield 作者 / Author: Tom Blomfield (YC GP, ex-Monzo) 发布日期: 2026-05-21 | 抓取日期: 2026-06-20 主题: self-evolving-company

一句话

不要把 AI「外挂」到现有流程上换 20% 提效,而要把公司重构成一组递归自我改进的 AI 闭环——前提是让整个组织对 AI「可读」(legible):把所有知识录下来、沉淀成 context/skills,公司就能在你睡觉时自己变好。

核心论点(英中对照)

  1. EN: "Most companies today are organized like a Roman legion, where human beings are the conduit for information flowing up and down... AI basically breaks that." 中: 今天的公司都像罗马军团——人是信息上传下达的唯一管道(嵌套科层、固定管理跨度)。AI 直接打破了「科层制是组织经济单元的唯一方式」这个底层假设。

  2. EN: "Adding co-pilots to make engineers 20% more productive... is a broken way of thinking about AI. It's like taking the old way of working and adding a more powerful engine onto it." 中: 把 AI 当 copilot、给工程师加 20% 提效,是错误框架——等于在旧工作方式上装个更强的引擎。正确做法是重新想象「公司是什么、如何运作」。

  3. EN: "You can reimagine what a company is as a set of recursive self-improving AI loops... the company starts to self-improve even when you're sleeping." 中: 把公司重新定义为一组递归自我改进的 AI 闭环。一旦跑通,公司在你睡觉时也在自我进化。

  4. EN: The loop = sensor layer (customer emails/support tickets/telemetry) → policy/decision layer → tool layer (deterministic APIs, "skills + code") → quality gate (evals/safety/human review) → learning mechanism → back to top. 中: 闭环五层:传感层(客户邮件/工单/产品遥测)→ 策略决策层(什么能做、什么须经人类批准、什么必须记录)→ 工具层(确定性 API,即「skills + 代码」)→ 质量门(evals/安全过滤/高风险人审)→ 学习机制 →回到顶部。每一步都做到最小人类干预,系统就越跑越好。

  5. EN: "The aha moment came when we put a monitoring agent on top... it looked at every query every YC employee was doing, saw when it worked and when it didn't... overnight: write the code, put in a merge request, have an agent review it, merge and deploy it." 中: 顿悟点:在「查询 agent」之上再加一个监控 agent,看每个员工的每次查询成败;失败时自问「缺什么工具/要不要更新 skills/要不要新索引」,当晚自动写代码、提 MR、由 agent 评审、合并、部署。第二天同样的查询就能成功了。这不再是 20-30% 提效,而是 AI 自己走完闭环实现自我改进。

  6. EN: "Burn tokens, not head count. Companies get to demo day with ~5x more revenue per employee than 18 months ago... you'll be constrained on token usage, not head count." 中: 烧 token,不烧人头。现在到 Demo Day 的公司人均收入是 18 个月前的约 5 倍,且会延续到 A、B 轮。很快瓶颈是 token 用量而非招人。粗暴指标:看谁在「token maxing」——可作为「该把时间花在哪些员工身上」的方向性参考(一旦做成排行榜/升降职依据就会被钻空子)。

  7. EN: "Middle management is done... everyone has to be an IC—a builder, an operator. And you need directly responsible individuals (DRI)—a named human, not a committee." 中: 中层管理终结——协调问题该由 AI 做。只剩两类角色:人人都是 IC(建造者/操作者);外加直接责任人 DRI——要办成事必须有一个具名的人,不能是委员会。

  8. EN: "Make the entire organization legible to AI. If it is recorded, it happened to the AI. If it did not get recorded, it did not happen to your intelligence." 中: 让整个组织对 AI 可读。录下一切——合伙人邮件、每条 Slack/DM、每次 office hour 都进数据库。记录了才算「对 AI 发生过」;没记录,对你的智能体而言就没发生。

精译(高质量翻译段)

关于「监控 agent」自我改进闭环(核心案例):

我们一开始只有一个能查数据库的 agent,很简单——「我上次跟这家公司开 office hour 是什么时候?」后来它聪明了点:「我现在正在做 office hour 的这家公司,需要石化行业的人脉介绍」,它能用不同方式查库、用 RAG,给你凑出五个相关创始人。但这仍然只是个「副驾」,是去年那套——让我作为合伙人效率高 20%、30%。真正的顿悟,是当我们在它之上又放了一个监控 agent,去看 YC 每一位员工的每一次查询、看它什么时候管用什么时候不管用。不管用的时候它会问:为什么?怎样才能让这次查询成功?是要不同的确定性工具?要更新 skills 文件?要换个数据库、加个新索引?而这——现在真的是一夜之间发生:写代码、向 YC 代码库提 MR、让一个 agent 评审它、合并、部署。于是第二天人类来问同样的问题,就成功了。对我来说这就是圣杯时刻。

关于「公司大脑」与人类的位置:

我们说的其实是一个公司大脑(company brain)。中间那一块——你所有的数据、邮件、DM、skills、know-how——那就是公司大脑。而人类坐在它的边缘,作为这个智能与现实接触的界面。人类伸进模型暂时还去不了的地方:新颖情境、伦理判断、高风险时刻。比如一个创始人来找我们、正在考虑和联合创始人分手——那种高风险、高情绪的时刻,你真的想要一个人类在场。对你们而言就是销售对话——我认为未来 20 年那都得有真人在房间里。所以人类住在边缘。

关于软件「即用即弃」、context 才是资产:

每个职能现在都能按需生成软件——Codex 5.5 已经好到能把大多数简单的内部仪表盘一次成型(one-shot)到相当高的质量。我会把这些软件视为完全一次性的:数据要极其珍惜地存好(Garry 把所有邮件存成 markdown,什么都别扔),但软件当作易耗品——一两个月后模型更聪明了,就把软件扔掉,把你最初那套指令再喂进去重新生成。有价值的是人脑里「这个职能怎么运作」的理解,是业务 context 和 skills;上面那层软件是短暂的。

金句(可做字幕/标题)

  1. 「记录了,才算对 AI 发生过;没记录,对你的智能体就等于没发生。」
  2. 「烧 token,别烧人头。」(Burn tokens, not head count.)
  3. 「别把 AI 外挂到旧引擎上——重新想象公司本身。」
  4. 「让公司变成一组会自我改进的递归 AI 闭环,它会在你睡觉时自己变好。」
  5. 「中层管理终结了——只剩 IC 和直接责任人。」

剑桥图灵子的加工角度

  • 反共识/框架重构(控制论 × recsys × Bridgewater): Blomfield 的「自我改进闭环」本质就是一套控制论反馈系统(cybernetic feedback loop),只是他没点名。用我的三重透镜重新框定:
  • 控制论: 他的「传感层→策略→工具→质量门→学习」就是经典的 sense-decide-act-feedback 控制回路。关键创新在于监控 agent = 误差信号检测器(error signal detector),把人类查询的成败当作误差信号反馈回系统去改写代码。这是把 Wiener 的负反馈控制装进了公司的代码库。
  • recsys 在线学习飞轮: 这跟推荐系统的在线学习闭环结构同构——曝光→点击/反馈→日志→离线/在线重训→上线 A/B→再曝光。Blomfield 说的「agent 走产品分析→找漏斗摩擦点→上 A/B→选最优→部署→再来一遍」就是把 recsys 的 exploration/exploitation 飞轮搬到了整个公司运营。区别只是回路里跑的不是 embedding 梯度,而是 LLM 写的代码 + skills 文件。
  • Bridgewater「机器化决策」: Dalio 几十年前就在做的事——把投资判断写成明确的 principles/规则、让机器执行、用结果反推规则迭代。Blomfield 的「extract domain knowledge → 变成 context/skills → 让组织 legible」就是 Dalio「把脑子里的判断外化成机器可执行规则」的 LLM 时代版本。差别:Dalio 时代规则要人手写,现在监控 agent 能自动改写规则。

  • 我的判断(原作者没说、以量化宏观/古典战略/一手 ML 工程视角补): 1. 真正的护城河是「误差信号的覆盖率与无偏性」,不是 token 量。 Blomfield 的「token maxing」指标是表层。recsys 工程师都知道:在线学习闭环最容易死在反馈回路的偏差和数据漂移上——只对「被记录的成功/失败」学习,会系统性放大已有行为、对没被记录的需求盲视(survivorship + selection bias)。「记录了才算发生」这句听着帅,但它同时定义了系统的盲区:没被传感层捕捉的现实,会被这套自进化机制系统性地优化掉。这是控制论里的「可观测性」(observability)问题,他完全没提。 2. 递归自改进闭环天然不稳定,需要阻尼。 控制论第一课:正反馈回路(self-improving)若无阻尼会震荡或发散。一个会自己改自己代码、又自己评审自己 MR 的系统,缺人类阻尼时极易陷入局部最优锁死或 reward hacking——优化漏斗转化率的 agent 会学会用 dark pattern。Bridgewater 也正是靠「可信度加权」(believability-weighting) 和人类委员会做阻尼器,才没让机器决策跑飞。Blomfield 把人类降级到「边缘/高情绪时刻」,低估了人类作为回路阻尼与价值对齐锚的结构性必要性。 3. 对中国创业者的可迁移性打折。 「录下一切→喂进 context」在欧美 SaaS 语境成立,但在国内涉及:数据合规(个人信息保护法对全程录音的限制)、客户对「对话被录」的接受度、以及中文长语音的 diarization 质量仍弱于英文。安心舍这种情感陪伴产品若全程录用户对话做「company brain」,是合规高压线。可落地的子集:先把内部 know-how(运营 SOP、客服话术、玄学解读规则)legible 化,而非用户侧全量录制。

短视频脚本骨架(60-90s)

  • Hook(3s): 「YC 合伙人说:今天 99% 的公司,组织方式还停留在两千年前的罗马军团。」
  • 冲突/反共识(15s): 「所有人都在给员工加 AI copilot 求 20% 提效。Tom Blomfield 说这是错的——你只是在旧引擎上又装了个更强的引擎。真正该做的是:把公司本身重新设计成一台会自己进化的机器。」
  • 论证(30s): 「他举了 YC 的真实案例:一个查询 agent 之上,再放一个监控 agent,盯着每个员工每次查询的成败。一旦失败,它当晚就自己写代码、自己提 MR、自己评审、自己部署——第二天同样的问题就能答上来了。这不是提效,这是公司在你睡觉时自我改进。代价?他说:烧 token,别烧人头。」
  • 图灵子落点(15s): 「但作为做过推荐系统在线学习的人我得提醒:这种自进化闭环最大的坑不是 token 不够,而是只对被记录的东西学习——没被录下来的真实需求,会被这套系统悄悄优化掉。护城河是反馈的覆盖率,不是 token 量。」
  • CTA: 「你今天要重新创业,会用这个形态从头搭吗?评论区聊聊你公司哪个环节最该做成自进化闭环。」

长文大纲

  1. 开场:罗马军团隐喻 — 现代公司=嵌套科层+固定管理跨度,人是信息唯一管道;引 Jack Dorsey/Diana 的观点,AI 打破「科层=唯一组织方式」的假设。
  2. 错误框架 vs 正确框架 — copilot 提效 20% = 旧引擎换强引擎;正确做法=把公司重构成递归自改进 AI 闭环。
  3. 闭环五层解剖 — 传感层/策略层/工具层(skills+代码)/质量门(evals)/学习机制;配控制论 sense-act-feedback 对照图。
  4. YC 实战案例 — 查询 agent → 监控 agent → 一夜自动改代码部署;产品漏斗自优化闭环;客服建议→CPO/CTO agent 判断→连夜上线。
  5. 组织含义 — 烧 token 不烧人头(人均收入 5x);中层终结,只剩 IC + DRI。
  6. 落地三步 — ①录下一切让组织 legible(legible 才算发生)②能生成可自改进 artifact 才留③每个职能按需生成一次性软件,珍藏数据、抛弃软件。
  7. 人类的位置 — company brain 在中心,人在边缘:新颖情境/伦理/高风险高情绪时刻/销售对话。
  8. 图灵子批判层 — 控制论稳定性(需阻尼)、recsys 反馈偏差(可观测性盲区)、中国合规折扣、护城河重定义。
  9. 收尾拷问 — 「若今天重新创业,你会用这个形态从头搭吗?」

待核实 / 风险

  • 字幕为 YouTube 自动生成(auto-sub),已成功抓取真实文字稿(2763 词),非编造;但自动转写偶有错词(如把人名 "Garry" 写成 "Gary"、"P"/"PG" 可能指 Paul Graham、"Diane/Diana" 指同一位 Diana Hu、"Codex 55" 应为 "Codex 5.5"、个别脏话被打码),引用时人名/产品名建议二次核对。
  • 「人均收入约 5x、18 个月」「150 页用户手册一周生成」「2000 小时 office hour 录音」均为 Blomfield 演讲口述数字,未经独立核实,属其个人/YC 内部观察。
  • 演讲明确说「这是基于 Diana 的一个 talk + Jack Dorsey 的推文」二次综合,部分框架非 Blomfield 原创。
  • 「中层管理终结」「人均 5x 会延续到 A/B 轮」是强预测,非已验证事实,引用时应标为观点。