AI Agent 生态周报 | 第 24 周：框架选型第一份实测数据来了，OpenAI 宣布「chat 已死」

第 24 周（2026 年 6 月 2 日–7 日）是这一年来信息密度最高的几个周之一：ADK Arena 横测 51 个框架发布了第一份可复现的实测报告，开发者选框架不再只靠口碑；OpenAI 内部喊出「chat 已死」并宣布将 Codex 与 ChatGPT 合并；微软用自研 Polaris 切掉 GitHub Copilot 里的 GPT-4 Turbo；agentmemory 以 21.7k 星证明编码 Agent 的跨会话记忆已是独立赛道；MCP 安全漏洞第一批真实案例公开，攻防形势不容乐观。以下是本周最值得关注的五条主线。

一、框架选型有了首份可复现实测：51 个 ADK 横测结论

本周最重要的研究来自微软 CoreAI 与俄亥俄州立大学：ADK Arena，一篇横测 51 个 Python Agent 框架的论文。论文提出「LLM-as-a-Developer」方法论——用同一个编码 LLM 替代人工开发者，固定开发者变量、只变换框架，从而使「生成成本」成为 API 可用性的可量化指标。1

核心数据点：

51 个框架跑 204 个 Agent-基准对，生成成功率整体仅 57%
API 复杂度差异悬殊，生成成本在框架间相差 5.6 倍（$0.6 到 $3.4/个 Agent）
最优单一基准框架可解决 80% 任务，甚至超越通用前沿编码 Agent，但中位数框架解决率只有 32%
没有全能冠军：没有一个框架在全部基准上都排第一
最反直觉的发现：写 Agent 的模型比跑 Agent 的模型影响更大——同一框架下，Opus 编写的 Agent 解决率约是 GPT 编写的两倍

关于选型指导，ADK Arena 的结论与 JetBrains 本周发布的框架对比文章2形成印证——两者都指向同一个决策框架：

优先诉求	推荐选型
生产可靠性、确定性路由	LangGraph、OpenAI Agents SDK
快速原型、角色分工清晰	AutoGen/AG2、CrewAI
知识密集型检索场景	LlamaIndex、Haystack
企业治理与审计要求	Semantic Kernel
轻量本地实验	smolagents

ADK Arena 论文已开源测试管道，可复现 204 个 Agent-基准对的完整结果：

github.com · GitHub リポジトリ

jintao-h/ADK-Arena

https://github.com/jintao-h/ADK-Arena

コンテンツカードを読み込んでいます…

二、OpenAI：「chat 已死」，Codex 并入 ChatGPT 超级应用

本周最具象征意义的动作来自 OpenAI。6 月 3 日，《The Information》报道 OpenAI 将把 Codex 与 ChatGPT 整合为一个「超级应用」；随后 6 月 7 日，the-decoder 进一步披露内部说法：「chat is dead」——ChatGPT 将从回答问题的聊天机器人转型为自主处理任务的个人 Agent，覆盖编码、图像生成以及 Canva、Booking.com 等合作应用。3

几个可量化的信号：

Codex 周活用户已突破 500 万，企业端收入周环比增长 50%
ChatGPT、Codex 与 Atlas（代理浏览器）三条产品线将由首席产品官 Thibault Sottiaux 统一管理4
近期改版：数周内重新设计网页端与移动端界面，引导用户使用编码与 Agent 功能
远期方向：逐步让模型自主判断用户意图，减少显式指令依赖

コンテンツカードを読み込んでいます…

这个信号对产品调研者的含义是：OpenAI 的战略重心已从「更好的聊天体验」转向「能干活的 Agent 平台」，产品设计的竞争维度随之改变。

三、微软：Polaris 替换 Copilot 中的 GPT-4，Windows Agent Framework 开源

Build 2026（6 月 2 日）上，微软宣布了两件对工具链有直接影响的事：5

Project Polaris 替换 GitHub Copilot 默认模型

8 月起替换 GPT-4 Turbo，成为 GitHub Copilot 的默认推理引擎
混合专家架构（MoE），为不同编程语言设置专属子模块
微软基准测试中，Polaris 在大多数语言上优于 GPT-4 Turbo，Rust、Haskell 等低资源语言优势明显
现有订阅用户自动迁移，有 3 个月退出窗口期
战略意义：降低对 OpenAI 的模型依赖，掌控 Copilot 后续能力路线图

Windows Agent Framework 以 MIT 许可证开源

此前仅面向部分企业合作伙伴开放
功能：Agent 全生命周期管理（注册/启动/关闭/内存），基于 gRPC 总线的跨 Agent 通信
内置 AgentPolicy API，允许 IT 管理员为每个 Agent 定义细粒度访问控制

微软同周还发布了 7 款 MAI 自研模型（含 MAI-Thinking-1、MAI-Code-1-Flash、MAI-Image-2.5 等），以及 Frontier Tuning 权重微调服务——客户可对 MAI 权重做 RL 微调，成本约为 GPT 5.4 的 1/10。6

四、GitHub 项目周报：agentmemory 成编码 Agent 记忆标准选项

agentmemory（21.7k ⭐） 本周活跃度显著上升，是目前最受关注的编码 Agent 跨会话持久记忆方案。7

核心技术指标：

LongMemEval-S（500 题）上 R@5 达 95.2%，BM25-only 对比组为 86.2%
检索延迟 p50 为 14ms，无需外部向量数据库（SQLite + iii-engine）
53 个 MCP 工具，12 个自动 hook，支持 Claude Code、Codex CLI、GitHub Copilot CLI、Cursor、Gemini CLI 等 18 个编码 Agent
Token 消耗约 170K/年（约 $10），相比直接粘贴完整上下文节省 92%

从技术定位看，agentmemory 覆盖的是 Karpathy「LLM Wiki 模式」的扩展版：置信度评分 + 知识图谱 + 混合搜索（BM25 + 向量 + 图，RRF 融合）。与 mem0、Letta/MemGPT 的主要差异在于「零外部依赖 + 自动捕获 + 框架无关」——不需要在代码里手动调 add()，12 个 hook 会在会话过程中静默收集。

值得关注的另一个项目：LangGraph v1.1.10 + LangChain v1.2.16 发布，原生支持 GPT-5.5 Pro Responses API，并引入类型安全流式处理（Pydantic/dataclass 强制推断）。8 同期，LangSmith Agent Builder 更名为 LangSmith Fleet，聚焦 Agent 身份管理、权限控制和技能共享。

AutoGen 的 v0.4 版本在本周继续发酵：大量 breaking change 导致原 v0.2 社区分叉出 AG2 独立维护，两条分支并行发展。

github.com · GitHub リポジトリ

rohitg00/agentmemory

https://github.com/rohitg00/agentmemory

コンテンツカードを読み込んでいます…

五、MCP 安全红线：工具投毒、RCE、身份无法溯源

本周有两份报告让 MCP 安全问题从「理论风险」变成「已记录案例」。

Cloud Security Alliance 发布《State of AI Cybersecurity 2026》（调查 1,500 名安全负责人）：9

92% 的安全负责人对 Agent 风险表示担忧，仅 29% 认为已做好防御准备
68% 的组织表示无法在日志中区分 AI Agent 操作与人类操作
74% 的组织授予了超出任务需要的 Agent 权限
多轮越狱攻击（multi-turn jailbreak）在 8 个开权重模型上成功率高达 92%

Gravitee《State of AI Agent Security》（919 人调研）则直接披露 MCP 生态中已有真实攻击案例：

伪装成邮件集成的 npm 包，将出站邮件静默复制至攻击者控制地址
GitHub MCP server 中的恶意 issue 注入隐藏指令，劫持 Agent 并从私有仓库外泄数据
工具投毒（tool poisoning）、远程代码执行、越权访问均已有记录案例

对于正在生产环境接入 MCP server 的团队，本周的红线是：在未做身份隔离和工具调用审计的情况下，接入外部 MCP 包等同于接入可执行代码——信任模型需要重新评估。

开源模型速记

本周开源模型发布密度较高，与 Agent 工具链直接相关的几个：8

MiniMax M3：首个将 100 万上下文 + 多模态 computer use 结合的开权重模型，SWE-Bench Pro 59.0%，超越 GPT-5.5 和 Gemini 3.1 Pro
LangGraph v1.1.10 同期原生支持 GPT-5.5 Pro Responses API
NVIDIA Cosmos 3：面向物理 AI / 机器人策略的开源基础模型，MoT 架构，已在 RoboArena、Physics-IQ 等基准上取得开放权重第一
Microsoft SkillOpt（研究论文）：文本空间优化器，将 Agent 技能作为外部状态更新，避免微调权重的推理开销

选型调研摘要（本周新增）

决策问题	本周新增数据点
LangGraph vs CrewAI vs AutoGen，选哪个？	ADK Arena：LangGraph API 设计评分最优，CrewAI 快速原型，AutoGen（AG2）社区分裂中
编码 Agent 跨会话记忆怎么做？	agentmemory 无外部依赖，R@5 95.2%，12 hook 零配置
GitHub Copilot 8 月后的底层模型是什么？	微软 Polaris（MoE 架构），自动迁移，3 个月退出窗口
接入 MCP server 的安全风险有多大？	CSA：92% 担忧，已有工具投毒 / GitHub 私仓外泄真实案例
OpenAI 的 Agent 产品方向是什么？	Codex+ChatGPT 合并超级应用，500 万 WAU，企业端+50%

AI Agent 生态周报 | 第 24 周：框架选型第一份实测数据来了，OpenAI 宣布「chat 已死」

一、框架选型有了首份可复现实测：51 个 ADK 横测结论

二、OpenAI：「chat 已死」，Codex 并入 ChatGPT 超级应用

三、微软：Polaris 替换 Copilot 中的 GPT-4，Windows Agent Framework 开源

四、GitHub 项目周报：agentmemory 成编码 Agent 记忆标准选项

五、MCP 安全红线：工具投毒、RCE、身份无法溯源

开源模型速记

参考ソース