Gemini 3.5 Flash:Flash 系列首次在编码和智能体任务上越过旗舰 Pro

Gemini 3.5 Flash:Flash 系列首次在编码和智能体任务上越过旗舰 Pro

Google 在 I/O 2026 上发布 Gemini 3.5 Flash 并同步公开 Model Card。这是 Flash 系列第一次在编码(Terminal-Bench 2.1: 76.2%)和智能体任务(Finance Agent v2: +14.9pp)上越过前代旗舰 Gemini 3.1 Pro,同时推理速度比同级前沿模型快 4 倍,定价比 Pro 便宜 40%。

三大公司大模型论文
20/5/2026 · 11:36
1 suscripciones · 1 contenidos

Vistazo a la investigación

Google 在 I/O 2026 上发布了 Gemini 3.5 Flash,并同步公开了官方 Model Card。这是 Flash 系列第一次在编码和智能体任务上越过前代旗舰,同时保持比同级前沿模型快 4 倍的推理速度。1
Cargando vista previa del enlace…

一个设计权衡被打破了

Flash 系列一向被定位为「便宜快但能力打折」的选项,Pro 才是工程师交代关键任务的地方。3.5 Flash 试图打破这个预设。
根据 Google 官方 Model Card 和第三方机构 Artificial Analysis 的测试,Gemini 3.5 Flash 在编码与智能体方向已在多数 benchmark 上压过 Gemini 3.1 Pro,而推理速度约为同级前沿模型的 4 倍,在优化版本中可达 12 倍。23
速度数据:输出约 280 tokens/秒,是 Artificial Analysis Intelligence Index 散点图右上象限里唯一同时达到「前沿智能水平 + Flash 级延迟」的模型。

关键 Benchmark 数据

以下均为 Google 官方自报告数据,对比对象为 Gemini 3.1 Pro:2
Artificial Analysis Intelligence Index 与输出速度散点图,Gemini 3.5 Flash 位于右上象限(高智能 + 高速度)
来源:llm-stats.com,数据来自 Artificial Analysis
能力类别BenchmarkGemini 3.5 FlashGemini 3.1 Pro差值
编码Terminal-Bench 2.176.2%70.3%+5.9
编码SWE-Bench Pro (Public)55.1%54.2%+0.9
智能体 / 工具使用MCP Atlas83.6%78.2%+5.4
智能体 / 工具使用Finance Agent v257.9%43.0%+14.9
智能体 / 工具使用GDPval-AA (Elo)16561314+342
多模态CharXiv Reasoning84.2%83.3%+0.9
多模态MMMU-Pro83.6%80.5%+3.1
推理Humanity's Last Exam40.2%44.4%-4.2
推理ARC-AGI-272.1%77.1%-5.0
编码和工具调用是 Flash 本次超越最为明显的两个方向,Finance Agent v2 的差距达到近 15 个百分点。但在纯参数推理测试(Humanity's Last Exam、ARC-AGI-2)上,3.5 Flash 仍落后于 3.1 Pro。这意味着它更适合结构化的工具链任务,而不是开放式复杂推理。

规格与定价

项目参数
发布时间2026 年 5 月 19 日,Google I/O 2026,即日全面可用
模型 IDgemini-3.5-flash(内部版本 3.5-flash-05-2026
上下文窗口1M 输入 tokens / 64K 输出 tokens
知识截止2026 年 1 月
输入定价$1.50 / 1M tokens(全球区)
输出定价$9.00 / 1M tokens(全球区)
缓存折扣90%($0.15 / 1M 缓存输入 tokens)
模态支持文本、图像、音频、视频输入;文本输出
默认思维动态思维开启,支持函数调用、结构化输出、联网工具
定价比 Gemini 3.1 Pro 便宜约 40%,比 Gemini 3 Flash 贵 3 倍。90% 的缓存折扣对上下文复用率高的智能体工作流有实际意义。
Google 方面给出的企业成本估算:日处理量达 1 万亿 tokens 的客户,将 80% 工作量迁移至 Flash + 前沿模型混合架构后,每年可节省超过 10 亿美元。这个数字的背后是 Google 自研 TPU 8i 推理芯片带来的单 token 成本优势。3

对技术选型的影响

对 AI 工程师来说,这次发布改变的是任务分派逻辑。
过去的经验法则是:编码 pipeline、多步骤 agent、金融分析等要求准确率的任务留给 Pro;Flash 只处理低延迟、高吞吐的分类和摘要。3.5 Flash 发布后,这条边界在编码和工具调用方向已经松动——不是 Flash 变得「足够好」了,而是它在特定任务上已经拿到了比 Pro 更高的分数。
几个值得注意的点:
  • 纯推理任务仍应选 Pro(ARC-AGI-2、HLE 有明确差距)
  • 长上下文检索(MRCR v2 128k)Flash 落后 Pro 约 7.6 个百分点,超长上下文重要性场景需要验证
  • 智能体任务的速度优势有实际意义:更快的工具调用循环意味着多步骤任务延迟显著下降
  • 价格敏感的智能体工作流(如代码生成 pipeline)值得做 A/B 评估
Gemini 3.5 Flash 已通过 Gemini API、Google AI Studio、Vertex AI 和 Antigravity 平台全面可用,开发者可直接调用 gemini-3.5-flash 模型 ID。1

Añade más opiniones o contexto en torno a este contenido.

  • Inicia sesión para comentar.