Gemini 3.5 Flash：Google 首个在 Agent 任务上超越旗舰 Pro 的 Flash 模型

Google 在 Google I/O 2026 发布 Gemini 3.5 Flash，正式宣告它是目前 Gemini 系列里智能体与编码能力最强的模型——同时比其他前沿模型快 4 倍。这是一个值得认真对待的组合：大多数模型在速度和能力之间只能二选一，而 3.5 Flash 的基准数据显示，它在智能体任务上已超过自家旗舰 3.1 Pro，同时把延迟压在了 Flash 区间。1

为什么「Flash 超 Pro」值得注意

通常 Flash 系列代表「更快、更便宜但能力稍逊」，Pro 系列代表「更慢、更贵但更强」。3.5 Flash 打破了这个对应关系：它在编码和智能体基准上整体超过 Gemini 3.1 Pro，但推理密集型任务上仍弱于 Pro。

这意味着工程选型逻辑需要更新——对 Agent Pipeline 来说，Flash 现在是主模型候选，而不只是「成本压缩时的退而求其次」。

基准：在哪些任务上超了 Pro，在哪些没有

以下数据来自 Google 自报告，所有对比基准为 Gemini 3.1 Pro：

任务类型	基准测试	3.5 Flash	3.1 Pro	差值
编码（智能体终端）	Terminal-Bench 2.1	76.2%	70.3%	+5.9
编码（代码库修复）	SWE-Bench Pro Public	55.1%	54.2%	+0.9
智能体（MCP 多步骤工作流）	MCP Atlas	83.6%	78.2%	+5.4
智能体（现实工具调用）	Toolathlon	56.5%	49.4%	+7.1
智能体（电脑操控）	OSWorld-Verified	78.4%	76.2%	+2.2
专业任务（财务分析）	Finance Agent v2	57.9%	43.0%	+14.9
多模态（图表理解）	CharXiv Reasoning	84.2%	83.3%	+0.9
长上下文（128k）	MRCR v2 8-needle	77.3%	84.9%	-7.6
推理（学术极限）	Humanity's Last Exam	40.2%	44.4%	-4.2
推理（抽象谜题）	ARC-AGI-2	72.1%	77.1%	-5.0

规律清晰：Finance Agent v2 领先 14.9 个百分点，智能体和编码全面领先；但在长上下文召回（128k MRCR）、纯推理（Humanity's Last Exam）上依然不及 3.1 Pro。如果你的 pipeline 核心是多步骤工具调用和代码执行，Pro 已不是必要选项。

技术规格

输入模态：文本、图像、音频、视频
输出：文本（不含图像或音频输出）
最大输入 token：1,048,576（100 万）
最大输出 token：65,536（64K）
知识截止时间：2026 年 1 月
动态思考：默认开启，支持工具调用、结构化输出、代码执行
模型版本：gemini-3.5-flash（内部版本号 3.5-flash-05-2026）

定价（每百万 token）：输入 $1.50，输出 $9.00，缓存输入 $0.15。Google 自报告称完成同等任务的成本通常不到其他前沿模型的一半。2

Agent 场景的设计逻辑

Google 在技术文档中明确将 3.5 Flash 定位为 Antigravity 框架的核心调度引擎：Antigravity 托管智能体（Managed Agents）通过一次 API 调用即可启动可推理、调用工具、在隔离 Linux 环境执行代码的 Agent，底层就是 3.5 Flash 驱动。3

这个架构选择有实际含义：框架与模型协同优化（「co-optimized with Gemini models, especially Gemini 3.5 Flash」），同时持久化隔离环境保留跨轮状态，让多轮 Agent 会话成为原生能力。Shopify 已在生产环境部署，用多个子智能体并行分析商户增长预测。

Flash 的 4 倍速度优势在这类「并行子智能体」场景下有乘法效应：同等时延预算下可以跑更多 Agent 分支，这比单纯看 token/s 更重要。

与上一代的位置变化

Gemini 3.1 Pro 并未消失，但其优势领域缩窄至密集推理（学术极限题、长文档召回）。研究人员如果需要分析超长文献或做逻辑链极复杂的推断，3.1 Pro 仍是合理选择。3.5 Flash 的出现更多是让 Pro 退回它本来应有的利基：需要极限推理时才上的「重炮」，而不再是所有 Agent 工作流的默认选择。

至于 3.5 Pro——Google 已在内测，计划 6 月推出。可以预期它会在长上下文和推理上把差距拉回来，届时「双版本分工」的格局才算完整。

blog.google

Gemini 3.5: frontier intelligence with action

At Google I/O we released Gemini 3.5, our latest series of models combining frontier intelligence with action.

Loading link preview…

Gemini 3.5 Flash：Google 首个在 Agent 任务上超越旗舰 Pro 的 Flash 模型

为什么「Flash 超 Pro」值得注意

基准：在哪些任务上超了 Pro，在哪些没有

技术规格

Agent 场景的设计逻辑

与上一代的位置变化

Gemini 3.5: frontier intelligence with action

References

Gemini 3.5: frontier intelligence with action