
AI Agent 生态周报 | 第 24 周:框架选型第一份实测数据来了,OpenAI 宣布「chat 已死」
ADK Arena 横测 51 个框架:57% 生成成功率,框架间成本差 5.6 倍,LangGraph/OpenAI Agents SDK API 最优,但没有全能冠军。OpenAI 将 Codex 并入 ChatGPT 打造超级应用,内部称「chat 已死」。微软 Project Polaris 8 月替换 GitHub Copilot 中的 GPT-4,Windows Agent Framework 开源。agentmemory(21.7k ⭐)成为编码 Agent 跨会话记忆标准选项。CSA 报告:MCP 已有工具投毒、私仓外泄真实案例,92% 安全负责人担忧但仅 29% 有准备。
リサーチノート
第 24 周(2026 年 6 月 2 日–7 日)是这一年来信息密度最高的几个周之一:ADK Arena 横测 51 个框架发布了第一份可复现的实测报告,开发者选框架不再只靠口碑;OpenAI 内部喊出「chat 已死」并宣布将 Codex 与 ChatGPT 合并;微软用自研 Polaris 切掉 GitHub Copilot 里的 GPT-4 Turbo;agentmemory 以 21.7k 星证明编码 Agent 的跨会话记忆已是独立赛道;MCP 安全漏洞第一批真实案例公开,攻防形势不容乐观。以下是本周最值得关注的五条主线。
一、框架选型有了首份可复现实测:51 个 ADK 横测结论
本周最重要的研究来自微软 CoreAI 与俄亥俄州立大学:ADK Arena,一篇横测 51 个 Python Agent 框架的论文。论文提出「LLM-as-a-Developer」方法论——用同一个编码 LLM 替代人工开发者,固定开发者变量、只变换框架,从而使「生成成本」成为 API 可用性的可量化指标。1
核心数据点:
- 51 个框架跑 204 个 Agent-基准对,生成成功率整体仅 57%
- API 复杂度差异悬殊,生成成本在框架间相差 5.6 倍($0.6 到 $3.4/个 Agent)
- 最优单一基准框架可解决 80% 任务,甚至超越通用前沿编码 Agent,但中位数框架解决率只有 32%
- 没有全能冠军:没有一个框架在全部基准上都排第一
- 最反直觉的发现:写 Agent 的模型比跑 Agent 的模型影响更大——同一框架下,Opus 编写的 Agent 解决率约是 GPT 编写的两倍
关于选型指导,ADK Arena 的结论与 JetBrains 本周发布的框架对比文章2形成印证——两者都指向同一个决策框架:
| 优先诉求 | 推荐选型 |
|---|---|
| 生产可靠性、确定性路由 | LangGraph、OpenAI Agents SDK |
| 快速原型、角色分工清晰 | AutoGen/AG2、CrewAI |
| 知识密集型检索场景 | LlamaIndex、Haystack |
| 企业治理与审计要求 | Semantic Kernel |
| 轻量本地实验 | smolagents |
ADK Arena 论文已开源测试管道,可复现 204 个 Agent-基准对的完整结果:
コンテンツカードを読み込んでいます…
二、OpenAI:「chat 已死」,Codex 并入 ChatGPT 超级应用
本周最具象征意义的动作来自 OpenAI。6 月 3 日,《The Information》报道 OpenAI 将把 Codex 与 ChatGPT 整合为一个「超级应用」;随后 6 月 7 日,the-decoder 进一步披露内部说法:「chat is dead」——ChatGPT 将从回答问题的聊天机器人转型为自主处理任务的个人 Agent,覆盖编码、图像生成以及 Canva、Booking.com 等合作应用。3
几个可量化的信号:
- Codex 周活用户已突破 500 万,企业端收入周环比增长 50%
- ChatGPT、Codex 与 Atlas(代理浏览器)三条产品线将由首席产品官 Thibault Sottiaux 统一管理4
- 近期改版:数周内重新设计网页端与移动端界面,引导用户使用编码与 Agent 功能
- 远期方向:逐步让模型自主判断用户意图,减少显式指令依赖
コンテンツカードを読み込んでいます…
这个信号对产品调研者的含义是:OpenAI 的战略重心已从「更好的聊天体验」转向「能干活的 Agent 平台」,产品设计的竞争维度随之改变。
三、微软:Polaris 替换 Copilot 中的 GPT-4,Windows Agent Framework 开源
Build 2026(6 月 2 日)上,微软宣布了两件对工具链有直接影响的事:5
Project Polaris 替换 GitHub Copilot 默认模型
- 8 月起替换 GPT-4 Turbo,成为 GitHub Copilot 的默认推理引擎
- 混合专家架构(MoE),为不同编程语言设置专属子模块
- 微软基准测试中,Polaris 在大多数语言上优于 GPT-4 Turbo,Rust、Haskell 等低资源语言优势明显
- 现有订阅用户自动迁移,有 3 个月退出窗口期
- 战略意义:降低对 OpenAI 的模型依赖,掌控 Copilot 后续能力路线图
Windows Agent Framework 以 MIT 许可证开源
- 此前仅面向部分企业合作伙伴开放
- 功能:Agent 全生命周期管理(注册/启动/关闭/内存),基于 gRPC 总线的跨 Agent 通信
- 内置 AgentPolicy API,允许 IT 管理员为每个 Agent 定义细粒度访问控制
微软同周还发布了 7 款 MAI 自研模型(含 MAI-Thinking-1、MAI-Code-1-Flash、MAI-Image-2.5 等),以及 Frontier Tuning 权重微调服务——客户可对 MAI 权重做 RL 微调,成本约为 GPT 5.4 的 1/10。6
四、GitHub 项目周报:agentmemory 成编码 Agent 记忆标准选项
agentmemory(21.7k ⭐) 本周活跃度显著上升,是目前最受关注的编码 Agent 跨会话持久记忆方案。7
核心技术指标:
- LongMemEval-S(500 题)上 R@5 达 95.2%,BM25-only 对比组为 86.2%
- 检索延迟 p50 为 14ms,无需外部向量数据库(SQLite + iii-engine)
- 53 个 MCP 工具,12 个自动 hook,支持 Claude Code、Codex CLI、GitHub Copilot CLI、Cursor、Gemini CLI 等 18 个编码 Agent
- Token 消耗约 170K/年(约 $10),相比直接粘贴完整上下文节省 92%
从技术定位看,agentmemory 覆盖的是 Karpathy「LLM Wiki 模式」的扩展版:置信度评分 + 知识图谱 + 混合搜索(BM25 + 向量 + 图,RRF 融合)。与 mem0、Letta/MemGPT 的主要差异在于「零外部依赖 + 自动捕获 + 框架无关」——不需要在代码里手动调
add(),12 个 hook 会在会话过程中静默收集。值得关注的另一个项目:LangGraph v1.1.10 + LangChain v1.2.16 发布,原生支持 GPT-5.5 Pro Responses API,并引入类型安全流式处理(Pydantic/dataclass 强制推断)。8 同期,LangSmith Agent Builder 更名为 LangSmith Fleet,聚焦 Agent 身份管理、权限控制和技能共享。
AutoGen 的 v0.4 版本在本周继续发酵:大量 breaking change 导致原 v0.2 社区分叉出 AG2 独立维护,两条分支并行发展。
コンテンツカードを読み込んでいます…
五、MCP 安全红线:工具投毒、RCE、身份无法溯源
本周有两份报告让 MCP 安全问题从「理论风险」变成「已记录案例」。
Cloud Security Alliance 发布《State of AI Cybersecurity 2026》(调查 1,500 名安全负责人):9
- 92% 的安全负责人对 Agent 风险表示担忧,仅 29% 认为已做好防御准备
- 68% 的组织表示无法在日志中区分 AI Agent 操作与人类操作
- 74% 的组织授予了超出任务需要的 Agent 权限
- 多轮越狱攻击(multi-turn jailbreak)在 8 个开权重模型上成功率高达 92%
Gravitee《State of AI Agent Security》(919 人调研)则直接披露 MCP 生态中已有真实攻击案例:
- 伪装成邮件集成的 npm 包,将出站邮件静默复制至攻击者控制地址
- GitHub MCP server 中的恶意 issue 注入隐藏指令,劫持 Agent 并从私有仓库外泄数据
- 工具投毒(tool poisoning)、远程代码执行、越权访问均已有记录案例
对于正在生产环境接入 MCP server 的团队,本周的红线是:在未做身份隔离和工具调用审计的情况下,接入外部 MCP 包等同于接入可执行代码——信任模型需要重新评估。
开源模型速记
本周开源模型发布密度较高,与 Agent 工具链直接相关的几个:8
- MiniMax M3:首个将 100 万上下文 + 多模态 computer use 结合的开权重模型,SWE-Bench Pro 59.0%,超越 GPT-5.5 和 Gemini 3.1 Pro
- LangGraph v1.1.10 同期原生支持 GPT-5.5 Pro Responses API
- NVIDIA Cosmos 3:面向物理 AI / 机器人策略的开源基础模型,MoT 架构,已在 RoboArena、Physics-IQ 等基准上取得开放权重第一
- Microsoft SkillOpt(研究论文):文本空间优化器,将 Agent 技能作为外部状态更新,避免微调权重的推理开销
选型调研摘要(本周新增)
| 决策问题 | 本周新增数据点 |
|---|---|
| LangGraph vs CrewAI vs AutoGen,选哪个? | ADK Arena:LangGraph API 设计评分最优,CrewAI 快速原型,AutoGen(AG2)社区分裂中 |
| 编码 Agent 跨会话记忆怎么做? | agentmemory 无外部依赖,R@5 95.2%,12 hook 零配置 |
| GitHub Copilot 8 月后的底层模型是什么? | 微软 Polaris(MoE 架构),自动迁移,3 个月退出窗口 |
| 接入 MCP server 的安全风险有多大? | CSA:92% 担忧,已有工具投毒 / GitHub 私仓外泄真实案例 |
| OpenAI 的 Agent 产品方向是什么? | Codex+ChatGPT 合并超级应用,500 万 WAU,企业端+50% |
参考ソース
- 1ADK Arena: Evaluating Agent Development Kits via LLM-as-a-Developer
- 2Top Agentic Frameworks for Building Applications 2026
- 3OpenAI says "chat is dead" and plans to rebuild ChatGPT as a full-blown agent app
- 4Inside OpenAI's Decision to Combine Codex and ChatGPT
- 5Build 2026: Project Polaris Replaces GPT-4 in GitHub Copilot
- 6Building a hill-climbing machine: Launching seven new MAI models
- 7rohitg00/agentmemory: #1 Persistent memory for AI coding agents
- 8Open-Source AI June 2026: New Models, Agents & Papers
- 9CSA AI Cybersecurity 2026 Report — referenced via community analysis
このコンテンツについて、さらに観点や背景を補足しましょう。