Gemini 3.5 Flash：Flash 系列首次在编码和智能体任务上越过旗舰 Pro

Google 在 I/O 2026 上发布了 Gemini 3.5 Flash，并同步公开了官方 Model Card。这是 Flash 系列第一次在编码和智能体任务上越过前代旗舰，同时保持比同级前沿模型快 4 倍的推理速度。1

blog.google

The Gemini app becomes more agentic, delivering proactive, 24/7 help

Google I/O 2026 发布公告，正式介绍 Gemini 3.5 Flash 与 Gemini app 新智能体能力

Cargando vista previa del enlace…

一个设计权衡被打破了

Flash 系列一向被定位为「便宜快但能力打折」的选项，Pro 才是工程师交代关键任务的地方。3.5 Flash 试图打破这个预设。

根据 Google 官方 Model Card 和第三方机构 Artificial Analysis 的测试，Gemini 3.5 Flash 在编码与智能体方向已在多数 benchmark 上压过 Gemini 3.1 Pro，而推理速度约为同级前沿模型的 4 倍，在优化版本中可达 12 倍。2 3

速度数据：输出约 280 tokens/秒，是 Artificial Analysis Intelligence Index 散点图右上象限里唯一同时达到「前沿智能水平 + Flash 级延迟」的模型。

关键 Benchmark 数据

以下均为 Google 官方自报告数据，对比对象为 Gemini 3.1 Pro：2

Artificial Analysis Intelligence Index 与输出速度散点图，Gemini 3.5 Flash 位于右上象限（高智能 + 高速度） — *来源：llm-stats.com，数据来自 Artificial Analysis*

能力类别	Benchmark	Gemini 3.5 Flash	Gemini 3.1 Pro	差值
编码	Terminal-Bench 2.1	76.2%	70.3%	+5.9
编码	SWE-Bench Pro (Public)	55.1%	54.2%	+0.9
智能体 / 工具使用	MCP Atlas	83.6%	78.2%	+5.4
智能体 / 工具使用	Finance Agent v2	57.9%	43.0%	+14.9
智能体 / 工具使用	GDPval-AA (Elo)	1656	1314	+342
多模态	CharXiv Reasoning	84.2%	83.3%	+0.9
多模态	MMMU-Pro	83.6%	80.5%	+3.1
推理	Humanity's Last Exam	40.2%	44.4%	-4.2
推理	ARC-AGI-2	72.1%	77.1%	-5.0

编码和工具调用是 Flash 本次超越最为明显的两个方向，Finance Agent v2 的差距达到近 15 个百分点。但在纯参数推理测试（Humanity's Last Exam、ARC-AGI-2）上，3.5 Flash 仍落后于 3.1 Pro。这意味着它更适合结构化的工具链任务，而不是开放式复杂推理。

规格与定价

项目	参数
发布时间	2026 年 5 月 19 日，Google I/O 2026，即日全面可用
模型 ID	`gemini-3.5-flash`（内部版本 `3.5-flash-05-2026`）
上下文窗口	1M 输入 tokens / 64K 输出 tokens
知识截止	2026 年 1 月
输入定价	$1.50 / 1M tokens（全球区）
输出定价	$9.00 / 1M tokens（全球区）
缓存折扣	90%（$0.15 / 1M 缓存输入 tokens）
模态支持	文本、图像、音频、视频输入；文本输出
默认思维	动态思维开启，支持函数调用、结构化输出、联网工具

定价比 Gemini 3.1 Pro 便宜约 40%，比 Gemini 3 Flash 贵 3 倍。90% 的缓存折扣对上下文复用率高的智能体工作流有实际意义。

Google 方面给出的企业成本估算：日处理量达 1 万亿 tokens 的客户，将 80% 工作量迁移至 Flash + 前沿模型混合架构后，每年可节省超过 10 亿美元。这个数字的背后是 Google 自研 TPU 8i 推理芯片带来的单 token 成本优势。3

对技术选型的影响

对 AI 工程师来说，这次发布改变的是任务分派逻辑。

过去的经验法则是：编码 pipeline、多步骤 agent、金融分析等要求准确率的任务留给 Pro；Flash 只处理低延迟、高吞吐的分类和摘要。3.5 Flash 发布后，这条边界在编码和工具调用方向已经松动——不是 Flash 变得「足够好」了，而是它在特定任务上已经拿到了比 Pro 更高的分数。

几个值得注意的点：

纯推理任务仍应选 Pro（ARC-AGI-2、HLE 有明确差距）
长上下文检索（MRCR v2 128k）Flash 落后 Pro 约 7.6 个百分点，超长上下文重要性场景需要验证
智能体任务的速度优势有实际意义：更快的工具调用循环意味着多步骤任务延迟显著下降
价格敏感的智能体工作流（如代码生成 pipeline）值得做 A/B 评估

Gemini 3.5 Flash 已通过 Gemini API、Google AI Studio、Vertex AI 和 Antigravity 平台全面可用，开发者可直接调用 gemini-3.5-flash 模型 ID。1

Gemini 3.5 Flash：Flash 系列首次在编码和智能体任务上越过旗舰 Pro

The Gemini app becomes more agentic, delivering proactive, 24/7 help

一个设计权衡被打破了

关键 Benchmark 数据

规格与定价

对技术选型的影响

Fuentes de referencia

The Gemini app becomes more agentic, delivering proactive, 24/7 help