Gemini 3.5 Flash:Google 首个在 Agent 任务上超越旗舰 Pro 的 Flash 模型

Gemini 3.5 Flash:Google 首个在 Agent 任务上超越旗舰 Pro 的 Flash 模型

Google 在 Google I/O 2026 发布 Gemini 3.5 Flash,这是 Gemini 系列中首个在智能体和编码基准上整体超越自家旗舰 Gemini 3.1 Pro 的 Flash 模型,同时保持 4 倍于其他前沿模型的输出速度。Finance Agent v2 领先 3.1 Pro 达 14.9 个百分点,Terminal-Bench 2.1 领先 5.9 个百分点。定价 $1.50/$9.00 / 百万 token,支持 1M 上下文窗口。

三大公司大模型论文
2026. 5. 20. · 17:11
구독 1개 · 콘텐츠 1개

리서치 브리프

Google 在 Google I/O 2026 发布 Gemini 3.5 Flash,正式宣告它是目前 Gemini 系列里智能体与编码能力最强的模型——同时比其他前沿模型快 4 倍。这是一个值得认真对待的组合:大多数模型在速度和能力之间只能二选一,而 3.5 Flash 的基准数据显示,它在智能体任务上已超过自家旗舰 3.1 Pro,同时把延迟压在了 Flash 区间。1

为什么「Flash 超 Pro」值得注意

通常 Flash 系列代表「更快、更便宜但能力稍逊」,Pro 系列代表「更慢、更贵但更强」。3.5 Flash 打破了这个对应关系:它在编码和智能体基准上整体超过 Gemini 3.1 Pro,但推理密集型任务上仍弱于 Pro。
这意味着工程选型逻辑需要更新——对 Agent Pipeline 来说,Flash 现在是主模型候选,而不只是「成本压缩时的退而求其次」。

基准:在哪些任务上超了 Pro,在哪些没有

以下数据来自 Google 自报告,所有对比基准为 Gemini 3.1 Pro:
任务类型基准测试3.5 Flash3.1 Pro差值
编码(智能体终端)Terminal-Bench 2.176.2%70.3%+5.9
编码(代码库修复)SWE-Bench Pro Public55.1%54.2%+0.9
智能体(MCP 多步骤工作流)MCP Atlas83.6%78.2%+5.4
智能体(现实工具调用)Toolathlon56.5%49.4%+7.1
智能体(电脑操控)OSWorld-Verified78.4%76.2%+2.2
专业任务(财务分析)Finance Agent v257.9%43.0%+14.9
多模态(图表理解)CharXiv Reasoning84.2%83.3%+0.9
长上下文(128k)MRCR v2 8-needle77.3%84.9%-7.6
推理(学术极限)Humanity's Last Exam40.2%44.4%-4.2
推理(抽象谜题)ARC-AGI-272.1%77.1%-5.0
2
规律清晰:Finance Agent v2 领先 14.9 个百分点,智能体和编码全面领先;但在长上下文召回(128k MRCR)、纯推理(Humanity's Last Exam)上依然不及 3.1 Pro。如果你的 pipeline 核心是多步骤工具调用和代码执行,Pro 已不是必要选项。

技术规格

  • 输入模态:文本、图像、音频、视频
  • 输出:文本(不含图像或音频输出)
  • 最大输入 token:1,048,576(100 万)
  • 最大输出 token:65,536(64K)
  • 知识截止时间:2026 年 1 月
  • 动态思考:默认开启,支持工具调用、结构化输出、代码执行
  • 模型版本gemini-3.5-flash(内部版本号 3.5-flash-05-2026
定价(每百万 token):输入 $1.50,输出 $9.00,缓存输入 $0.15。Google 自报告称完成同等任务的成本通常不到其他前沿模型的一半。2

Agent 场景的设计逻辑

Google 在技术文档中明确将 3.5 Flash 定位为 Antigravity 框架的核心调度引擎:Antigravity 托管智能体(Managed Agents)通过一次 API 调用即可启动可推理、调用工具、在隔离 Linux 环境执行代码的 Agent,底层就是 3.5 Flash 驱动。3
这个架构选择有实际含义:框架与模型协同优化(「co-optimized with Gemini models, especially Gemini 3.5 Flash」),同时持久化隔离环境保留跨轮状态,让多轮 Agent 会话成为原生能力。Shopify 已在生产环境部署,用多个子智能体并行分析商户增长预测。
Flash 的 4 倍速度优势在这类「并行子智能体」场景下有乘法效应:同等时延预算下可以跑更多 Agent 分支,这比单纯看 token/s 更重要。

与上一代的位置变化

Gemini 3.1 Pro 并未消失,但其优势领域缩窄至密集推理(学术极限题、长文档召回)。研究人员如果需要分析超长文献或做逻辑链极复杂的推断,3.1 Pro 仍是合理选择。3.5 Flash 的出现更多是让 Pro 退回它本来应有的利基:需要极限推理时才上的「重炮」,而不再是所有 Agent 工作流的默认选择。
至于 3.5 Pro——Google 已在内测,计划 6 月推出。可以预期它会在长上下文和推理上把差距拉回来,届时「双版本分工」的格局才算完整。
링크 미리보기를 불러오는 중…

이 콘텐츠를 둘러싼 관점이나 맥락을 계속 보강해 보세요.

  • 로그인하면 댓글을 작성할 수 있습니다.