
GPT-5.5:OpenAI 最新旗舰的技术路线解读
OpenAI 于 2026 年 4 月 23 日发布 GPT-5.5,Terminal-Bench 2.0 达 82.7%、ARC-AGI-2 提升 11.7pp。本文从智能体编码、科学研究、安全机制三个维度解读核心数据,并分析「更少 token 完成更多」背后的技术路线信号。
Vistazo a la investigación
发布时间:2026 年 4 月 23 日 | 来源:OpenAI 官方公告 + System Card
OpenAI 在 4 月 23 日正式推出 GPT-5.5,随之发布的 System Card 明确了这是一次面向「智能体时代」的系统级升级,而不只是单项基准跑分的迭代。1
对 AI 研究者和工程师来说,GPT-5.5 最值得关注的不是绝对得分,而是 「更少 token,完成更复杂任务」 这条技术路线——它暗示 OpenAI 当前的核心优化目标已经从「扩参数拉分」转向「系统效率」。
关键技术提升
智能体编码:端到端解决率显著提升
GPT-5.5 在编码能力上的跃升是本次发布最具体的信号。2
| 基准 | GPT-5.5 | GPT-5.4 | 提升幅度 |
|---|---|---|---|
| Terminal-Bench 2.0 | 82.7% | 75.1% | +7.6pp |
| Expert-SWE(内部) | 73.1% | 68.5% | +4.6pp |
| SWE-Bench Pro(公开) | 58.6% | 57.7% | +0.9pp |
| ARC-AGI-2(Verified) | 85.0% | 73.3% | +11.7pp |
Terminal-Bench 2.0 的 82.7% 代表当前公开测试的最高成绩。更值得注意的是 Expert-SWE——这是 OpenAI 的内部基准,考察的是真实工程项目中「从 0 到可合并 PR」的端到端能力,73.1% 意味着跨越了「需要人工频繁介入」和「可以独立推进」之间的某条实用门槛。
ARC-AGI-2 提升幅度最大(+11.7pp),达到 85.0%。ARC-AGI-2 专门考察需要跨上下文长推理的问题,这一提升与 OpenAI 公告中强调的「跨上下文推理能力改善」相互印证。
知识工作与科学研究:效率而非只是准确率
GPT-5.5 在 GDPval(跨 44 个职业的知识工作产出)得分 84.9%,OSWorld-Verified(真实计算机环境自主操作)78.7%,均优于 GPT-5.4。1
科学研究方向有两个具体案例值得关注:
- 数学研究者 Bartosz Naskręcki 用 GPT-5.5 在 Codex 中 11 分钟内完成了代数几何二次曲面相交可视化,并输出魏尔斯特拉斯模型。

- 一位免疫学研究者用 GPT-5.5 Pro 分析约 28,000 个基因、62 个样本的基因表达数据集,输出详细研究报告,这项工作原本需要研究团队数月完成。
GeneBench(遗传学多阶段科学分析)得分 25.0%,对比 GPT-5.4 的 19.0%,提升幅度(+6pp)在各类基准中属于较高段位。BixBench(真实生物信息分析)得分 80.5%(GPT-5.4 为 74.0%),是该基准当前已发布模型中的最高分。
安全机制:「能力与护栏同步升级」
System Card 特别指出,GPT-5.5 配备了 OpenAI 迄今最完善的安全防护机制,包括:2
- 针对高级网络安全和生物学能力的专项红队测试
- 发布前收集了近 200 家可信早期合作方的真实场景反馈
- 对于 GPT-5.5 Pro(并行计算设置),部分场景单独评估,因为该配置在风险状态上可能与标准版存在差异
CyberGym 网络安全基准得分 81.8%(GPT-5.4 为 79.0%),Capture-the-Flag 内部测试达到 88.1%(+4.4pp)——这类能力提升本身是双刃剑,说明 OpenAI 在发布前做专项安全评估的必要性。
技术路线信号:「更少 token 完成更多」意味着什么
这是本次发布对研究者影响最直接的判断:
OpenAI 在公告中明确表示,GPT-5.5 「完成相同任务消耗的 token 数量显著更少,同时保持和 GPT-5.4 相同的每 token 延迟」。在 Artificial Analysis 编码指数中,GPT-5.5 以「竞品一半的成本」实现当前最优智能水平。3
这条路线的含义:OpenAI 当前的核心优化方向不是单纯的参数规模增长,而是在固定推理延迟约束下,提升每次前向传播的「问题分辨率」。这与 Anthropic 在 Claude 4 系列中强调的「长上下文利用率」、Google Gemini 系列的「多模态路由效率」形成了各自不同的技术侧重,三家路线正在分叉。
研究者和工程师可以据此调整对 GPT-5.x 系列的使用策略:当任务涉及长流程智能体编码或多步骤科学分析时,GPT-5.5 的 token 效率优势会被放大;对话式问答或单轮生成场景中,优势可能不如多步骤任务明显。
访问范围
当前已向 ChatGPT 和 Codex 的 Plus、Pro、Business、Enterprise 用户开放;API 端点近期将跟进。GPT-5.5 Pro(并行计算版)目前仅限 ChatGPT 的 Pro、Business、Enterprise 用户。1

Añade más opiniones o contexto en torno a este contenido.