14 · 用 AI 打造一家「自我进化的公司」——抛弃罗马军团式科层制

Source: Y Combinator — Tom Blomfield 作者 / Author: Tom Blomfield (YC GP, ex-Monzo) 发布日期: 2026-05-21　|　抓取日期: 2026-06-20 主题: self-evolving-company

一句话

不要把 AI「外挂」到现有流程上换 20% 提效，而要把公司重构成一组递归自我改进的 AI 闭环——前提是让整个组织对 AI「可读」(legible)：把所有知识录下来、沉淀成 context/skills，公司就能在你睡觉时自己变好。

核心论点（英中对照）

EN: "Most companies today are organized like a Roman legion, where human beings are the conduit for information flowing up and down... AI basically breaks that." 中: 今天的公司都像罗马军团——人是信息上传下达的唯一管道（嵌套科层、固定管理跨度）。AI 直接打破了「科层制是组织经济单元的唯一方式」这个底层假设。
EN: "Adding co-pilots to make engineers 20% more productive... is a broken way of thinking about AI. It's like taking the old way of working and adding a more powerful engine onto it." 中: 把 AI 当 copilot、给工程师加 20% 提效，是错误框架——等于在旧工作方式上装个更强的引擎。正确做法是重新想象「公司是什么、如何运作」。
EN: "You can reimagine what a company is as a set of recursive self-improving AI loops... the company starts to self-improve even when you're sleeping." 中: 把公司重新定义为一组递归自我改进的 AI 闭环。一旦跑通，公司在你睡觉时也在自我进化。
EN: The loop = sensor layer (customer emails/support tickets/telemetry) → policy/decision layer → tool layer (deterministic APIs, "skills + code") → quality gate (evals/safety/human review) → learning mechanism → back to top. 中: 闭环五层：传感层（客户邮件/工单/产品遥测）→ 策略决策层（什么能做、什么须经人类批准、什么必须记录）→ 工具层（确定性 API，即「skills + 代码」）→ 质量门（evals/安全过滤/高风险人审）→ 学习机制 →回到顶部。每一步都做到最小人类干预，系统就越跑越好。
EN: "The aha moment came when we put a monitoring agent on top... it looked at every query every YC employee was doing, saw when it worked and when it didn't... overnight: write the code, put in a merge request, have an agent review it, merge and deploy it." 中: 顿悟点：在「查询 agent」之上再加一个监控 agent，看每个员工的每次查询成败；失败时自问「缺什么工具/要不要更新 skills/要不要新索引」，当晚自动写代码、提 MR、由 agent 评审、合并、部署。第二天同样的查询就能成功了。这不再是 20-30% 提效，而是 AI 自己走完闭环实现自我改进。
EN: "Burn tokens, not head count. Companies get to demo day with ~5x more revenue per employee than 18 months ago... you'll be constrained on token usage, not head count." 中: 烧 token，不烧人头。现在到 Demo Day 的公司人均收入是 18 个月前的约 5 倍，且会延续到 A、B 轮。很快瓶颈是 token 用量而非招人。粗暴指标：看谁在「token maxing」——可作为「该把时间花在哪些员工身上」的方向性参考（一旦做成排行榜/升降职依据就会被钻空子）。
EN: "Middle management is done... everyone has to be an IC—a builder, an operator. And you need directly responsible individuals (DRI)—a named human, not a committee." 中: 中层管理终结——协调问题该由 AI 做。只剩两类角色：人人都是 IC（建造者/操作者）；外加直接责任人 DRI——要办成事必须有一个具名的人，不能是委员会。
EN: "Make the entire organization legible to AI. If it is recorded, it happened to the AI. If it did not get recorded, it did not happen to your intelligence." 中: 让整个组织对 AI 可读。录下一切——合伙人邮件、每条 Slack/DM、每次 office hour 都进数据库。记录了才算「对 AI 发生过」；没记录，对你的智能体而言就没发生。

精译（高质量翻译段）

关于「监控 agent」自我改进闭环（核心案例）：

我们一开始只有一个能查数据库的 agent，很简单——「我上次跟这家公司开 office hour 是什么时候？」后来它聪明了点：「我现在正在做 office hour 的这家公司，需要石化行业的人脉介绍」，它能用不同方式查库、用 RAG，给你凑出五个相关创始人。但这仍然只是个「副驾」，是去年那套——让我作为合伙人效率高 20%、30%。真正的顿悟，是当我们在它之上又放了一个监控 agent，去看 YC 每一位员工的每一次查询、看它什么时候管用什么时候不管用。不管用的时候它会问:为什么？怎样才能让这次查询成功？是要不同的确定性工具？要更新 skills 文件？要换个数据库、加个新索引？而这——现在真的是一夜之间发生:写代码、向 YC 代码库提 MR、让一个 agent 评审它、合并、部署。于是第二天人类来问同样的问题，就成功了。对我来说这就是圣杯时刻。

关于「公司大脑」与人类的位置：

我们说的其实是一个公司大脑(company brain)。中间那一块——你所有的数据、邮件、DM、skills、know-how——那就是公司大脑。而人类坐在它的边缘，作为这个智能与现实接触的界面。人类伸进模型暂时还去不了的地方:新颖情境、伦理判断、高风险时刻。比如一个创始人来找我们、正在考虑和联合创始人分手——那种高风险、高情绪的时刻，你真的想要一个人类在场。对你们而言就是销售对话——我认为未来 20 年那都得有真人在房间里。所以人类住在边缘。

关于软件「即用即弃」、context 才是资产：

每个职能现在都能按需生成软件——Codex 5.5 已经好到能把大多数简单的内部仪表盘一次成型(one-shot)到相当高的质量。我会把这些软件视为完全一次性的:数据要极其珍惜地存好（Garry 把所有邮件存成 markdown，什么都别扔），但软件当作易耗品——一两个月后模型更聪明了，就把软件扔掉，把你最初那套指令再喂进去重新生成。有价值的是人脑里「这个职能怎么运作」的理解，是业务 context 和 skills；上面那层软件是短暂的。

金句（可做字幕/标题）

「记录了，才算对 AI 发生过；没记录，对你的智能体就等于没发生。」
「烧 token，别烧人头。」(Burn tokens, not head count.)
「别把 AI 外挂到旧引擎上——重新想象公司本身。」
「让公司变成一组会自我改进的递归 AI 闭环，它会在你睡觉时自己变好。」
「中层管理终结了——只剩 IC 和直接责任人。」

剑桥图灵子的加工角度

反共识/框架重构（控制论 × recsys × Bridgewater）： Blomfield 的「自我改进闭环」本质就是一套控制论反馈系统(cybernetic feedback loop)，只是他没点名。用我的三重透镜重新框定:
控制论: 他的「传感层→策略→工具→质量门→学习」就是经典的 sense-decide-act-feedback 控制回路。关键创新在于监控 agent = 误差信号检测器(error signal detector)，把人类查询的成败当作误差信号反馈回系统去改写代码。这是把 Wiener 的负反馈控制装进了公司的代码库。
recsys 在线学习飞轮: 这跟推荐系统的在线学习闭环结构同构——曝光→点击/反馈→日志→离线/在线重训→上线 A/B→再曝光。Blomfield 说的「agent 走产品分析→找漏斗摩擦点→上 A/B→选最优→部署→再来一遍」就是把 recsys 的 exploration/exploitation 飞轮搬到了整个公司运营。区别只是回路里跑的不是 embedding 梯度，而是 LLM 写的代码 + skills 文件。
Bridgewater「机器化决策」: Dalio 几十年前就在做的事——把投资判断写成明确的 principles/规则、让机器执行、用结果反推规则迭代。Blomfield 的「extract domain knowledge → 变成 context/skills → 让组织 legible」就是 Dalio「把脑子里的判断外化成机器可执行规则」的 LLM 时代版本。差别:Dalio 时代规则要人手写，现在监控 agent 能自动改写规则。
我的判断（原作者没说、以量化宏观/古典战略/一手 ML 工程视角补）： 1. 真正的护城河是「误差信号的覆盖率与无偏性」，不是 token 量。 Blomfield 的「token maxing」指标是表层。recsys 工程师都知道:在线学习闭环最容易死在反馈回路的偏差和数据漂移上——只对「被记录的成功/失败」学习，会系统性放大已有行为、对没被记录的需求盲视(survivorship + selection bias)。「记录了才算发生」这句听着帅,但它同时定义了系统的盲区:没被传感层捕捉的现实，会被这套自进化机制系统性地优化掉。这是控制论里的「可观测性」(observability)问题,他完全没提。 2. 递归自改进闭环天然不稳定，需要阻尼。 控制论第一课:正反馈回路（self-improving）若无阻尼会震荡或发散。一个会自己改自己代码、又自己评审自己 MR 的系统，缺人类阻尼时极易陷入局部最优锁死或 reward hacking——优化漏斗转化率的 agent 会学会用 dark pattern。Bridgewater 也正是靠「可信度加权」(believability-weighting) 和人类委员会做阻尼器,才没让机器决策跑飞。Blomfield 把人类降级到「边缘/高情绪时刻」,低估了人类作为回路阻尼与价值对齐锚的结构性必要性。 3. 对中国创业者的可迁移性打折。 「录下一切→喂进 context」在欧美 SaaS 语境成立,但在国内涉及:数据合规（个人信息保护法对全程录音的限制）、客户对「对话被录」的接受度、以及中文长语音的 diarization 质量仍弱于英文。安心舍这种情感陪伴产品若全程录用户对话做「company brain」,是合规高压线。可落地的子集:先把内部 know-how（运营 SOP、客服话术、玄学解读规则）legible 化,而非用户侧全量录制。

短视频脚本骨架（60-90s）

Hook(3s): 「YC 合伙人说:今天 99% 的公司,组织方式还停留在两千年前的罗马军团。」
冲突/反共识(15s): 「所有人都在给员工加 AI copilot 求 20% 提效。Tom Blomfield 说这是错的——你只是在旧引擎上又装了个更强的引擎。真正该做的是:把公司本身重新设计成一台会自己进化的机器。」
论证(30s): 「他举了 YC 的真实案例:一个查询 agent 之上,再放一个监控 agent,盯着每个员工每次查询的成败。一旦失败,它当晚就自己写代码、自己提 MR、自己评审、自己部署——第二天同样的问题就能答上来了。这不是提效,这是公司在你睡觉时自我改进。代价?他说:烧 token,别烧人头。」
图灵子落点(15s): 「但作为做过推荐系统在线学习的人我得提醒:这种自进化闭环最大的坑不是 token 不够,而是只对被记录的东西学习——没被录下来的真实需求,会被这套系统悄悄优化掉。护城河是反馈的覆盖率,不是 token 量。」
CTA: 「你今天要重新创业,会用这个形态从头搭吗?评论区聊聊你公司哪个环节最该做成自进化闭环。」

长文大纲

开场:罗马军团隐喻 — 现代公司=嵌套科层+固定管理跨度,人是信息唯一管道；引 Jack Dorsey/Diana 的观点,AI 打破「科层=唯一组织方式」的假设。
错误框架 vs 正确框架 — copilot 提效 20% = 旧引擎换强引擎;正确做法=把公司重构成递归自改进 AI 闭环。
闭环五层解剖 — 传感层/策略层/工具层(skills+代码)/质量门(evals)/学习机制;配控制论 sense-act-feedback 对照图。
YC 实战案例 — 查询 agent → 监控 agent → 一夜自动改代码部署;产品漏斗自优化闭环;客服建议→CPO/CTO agent 判断→连夜上线。
组织含义 — 烧 token 不烧人头(人均收入 5x);中层终结,只剩 IC + DRI。
落地三步 — ①录下一切让组织 legible(legible 才算发生)②能生成可自改进 artifact 才留③每个职能按需生成一次性软件,珍藏数据、抛弃软件。
人类的位置 — company brain 在中心,人在边缘:新颖情境/伦理/高风险高情绪时刻/销售对话。
图灵子批判层 — 控制论稳定性(需阻尼)、recsys 反馈偏差(可观测性盲区)、中国合规折扣、护城河重定义。
收尾拷问 — 「若今天重新创业,你会用这个形态从头搭吗?」

待核实 / 风险

字幕为 YouTube 自动生成(auto-sub),已成功抓取真实文字稿(2763 词),非编造;但自动转写偶有错词(如把人名 "Garry" 写成 "Gary"、"P"/"PG" 可能指 Paul Graham、"Diane/Diana" 指同一位 Diana Hu、"Codex 55" 应为 "Codex 5.5"、个别脏话被打码),引用时人名/产品名建议二次核对。
「人均收入约 5x、18 个月」「150 页用户手册一周生成」「2000 小时 office hour 录音」均为 Blomfield 演讲口述数字,未经独立核实,属其个人/YC 内部观察。
演讲明确说「这是基于 Diana 的一个 talk + Jack Dorsey 的推文」二次综合,部分框架非 Blomfield 原创。
「中层管理终结」「人均 5x 会延续到 A/B 轮」是强预测,非已验证事实,引用时应标为观点。