Twitter AI 长文精选|多智能体的生产幻觉,以及如何搜索自己的大脑

Twitter AI 长文精选|多智能体的生产幻觉,以及如何搜索自己的大脑

今日精选 2 篇 Twitter 热门 AI 长文:一篇用 NeurIPS 2025 数据揭示多智能体系统在生产中 41-86.7% 的失败率和六种具名故障模式;另一篇拆解 Garry Tan 的 GBrain 个人知识系统,解释为何向量搜索不够以及确定性任务与判断型任务如何分工。

Twitter AI 长文精选
2026. 5. 20. · 19:49
구독 1개 · 콘텐츠 1개
2026 年 5 月 20 日精选 · 2 篇

今日推荐两篇在 Twitter 上引发广泛讨论的 AI 工程深文。第一篇直接戳破了多智能体系统「智能越多越强」的幻觉;第二篇展示了一个实际运作的个人 AI 知识系统,并把向量搜索的局限说得非常清楚。

多智能体的生产幻觉:41-86.7% 的失败率从哪来

两篇发表于 2025 年底的论文,结束了 AI 工程界一场尚未公开承认的争论——多智能体系统在生产环境里比单智能体更好吗?
数据给出了冷静的答案:多智能体 LLM 系统的生产失败率在 41% 到 86.7% 之间1。NeurIPS 2025 发布的 MAST 分类法横跨 1600+ 条执行记录,把失败归入 14 种模式,其中 79% 来自两类根源:任务规范模糊智能体之间的协调缺口
콘텐츠 카드를 불러오는 중…
这篇长文描述了六种高频复发的失败模式,每一种都有一个工程社区已经开始叫名字的绰号:
**无限传接球(Infinite Handoff Loop)**是出现最频繁的故障。智能体 A 把任务传给 B,B 传给 C,C 再传回 A,没有任何一方最终拥有这个任务。每次传递都丢失上下文,token 消耗在循环里冲上去,什么都没有交付。
**虚假共识(False Consensus)**是最隐蔽的一种:在群聊式协调里,智能体的完成目标是「达成一致」而不是「确认正确」。一个研究型智能体捏造了一个数据,管理型智能体接受了,下游的代码、策略、分析都在那个错误数据上往上叠。输出看起来连贯,从第二步起就全错了。
还有评论者与提案者共谋(Critic-Suggester Collusion)——当同一个智能体同时掌握「提案」和「批准」权限,建议会不断涌入,审核关口永远不会关闭,系统无限生成日益精妙的方案,但没有独立程序来收场。
这些失败的共同点在于:没有一种是模型质量问题。把 GPT-5.4 换成 Claude Sonnet,失败率几乎不变。故障活在智能体之间的接缝,不在任何单个智能体内部1
作者最后给出了一个决策树。如果任务有自然的顺序阶段和清晰的交接产物,走智能体流(relay);如果需要专家分工但由单一入口统筹,走枢纽-辐条(hub-and-spoke);如果任务真的需要动态对等协作、没有单一权威,就先停下来——2026 年这个模式在生产中的失败率是 60-80%。
「2024 年比的是能串多少个智能体,2025 年比的是怎么让单个智能体可靠,2026 年比的是解决实际问题所需的最小协调代价。」
这个结论和 Mass General Brigham 临床文档、JPMorgan EVEE 等真实生产案例一致:跑在生产里的不是五十个智能体的大队伍,而是几个范围明确的专家加上确定性的交接合同1

Garry Tan 的个人 AI 大脑:向量搜索还不够

Y Combinator CEO Garry Tan 花了 12 天,以「凌晨两点的建造者」状态,构建了一套运行在他个人知识库之上的 AI 代理系统。这套系统管理着超过 10 万页结构化知识,包含 4383 位人物和 723 家公司的记录2
콘텐츠 카드를 불러오는 중…
GBrain 最核心的架构决策是把系统里的「计算单元」按任务性质分成两类:
Minions 负责确定性工作——解析 JSON、同步代码仓库、跑脚本。它们是 Postgres 原生的持久化任务,不烧 LLM token。Sub-agent 负责判断型工作——分类、评估、做决策。两者之间的效率差距,从 Tan 公开的生产数据里能读出来:
指标Minions(确定性)Sub-agent(判断)
响应时间753ms>10,000ms(并出现超时)
Token 成本$0.00~$0.03/次
成功率100%0%(重负载下)
内存占用~2MB~80MB
把确定性任务交给 Minions 之后,系统整体吞吐量提升 10 倍,内存节省 400 倍2
在知识存储层,GBrain 采用「已编译事实 + 时间线」双轨结构:每个实体页面上方是当前最佳理解(随新证据更新改写),下方是只可追加的原始记录流。这个设计让系统可以在夜间自动做知识综合,醒来时比昨晚更新。
但这篇文章真正值得工程师注意的洞察是最后一点:向量搜索不够
Tan 指出,纯 RAG 对「谁在 Acme AI 工作」或「Bob 这个季度投了什么」这类关系型查询是盲目的。GBrain 在向量搜索之上叠加了一个自动构建的知识图谱,每次写入页面时自动抽取类型化关系链接(works_at、invested_in、founded)。结合约 20 种确定性排名技术,最终实现了 97.9% 的 Recall@5,比禁用图谱版本的 Precision@5 高出 31.4 个百分点2
这和上面那篇多智能体文章的底层判断一致:模型是引擎,不是整辆车。让模型做判断,让系统做记忆和路由。

每日精选 Twitter 上热门的 AI 深度长文。聚焦工程实践和系统性分析,适合 AI 从业者和创业者阅读。

이 콘텐츠를 둘러싼 관점이나 맥락을 계속 보강해 보세요.

  • 로그인하면 댓글을 작성할 수 있습니다.