HuggingFace 论文日报 · 2026-05-20

今天 HuggingFace 热榜共 11 篇论文，覆盖大模型强化学习训练、AI 视频生成、视觉感知、词向量更新等多个方向。以下是每篇的通俗解读。

1. GSPO：让 AI 训练更稳定的新算法

来自 Qwen Team（阿里巴巴）1

强化学习训练大语言模型，一直是个既重要又容易翻车的环节。之前 DeepSeek 开源的 GRPO 算法广泛使用，但 Qwen 团队发现它在训练大型 MoE（混合专家）模型时经常不稳定。

GSPO 的核心改动只有一个：把「以 token 为单位衡量重要性」改成「以整个句子序列为单位衡量」。听起来微小，但效果很关键——训练过程更稳定，MoE 模型不再频繁崩溃，最终效果也比 GRPO 更好。

Qwen3 系列模型的提升，有一部分就归功于 GSPO。

2. MUR：给 AI 推理加「动量刹车」

来自西安交通大学、南洋理工大学等2

现在的推理模型（比如 o1、DeepSeek-R1）在做题时会「反复思考」，但很多时候思考了半天其实没必要——答案早就想出来了，模型还在原地转圈，白白浪费算力。

MUR 的思路来自物理学里的「动量」概念：如果 AI 连续几步都觉得「我不太确定」，就让它继续想；一旦不确定性开始下降、思路收敛，就踩刹车、提前结束推理。整个过程不需要重新训练模型，测试阶段直接用。

实验结果显示，MUR 能在基本不损失正确率的情况下，把推理 token 数量压缩 20-40%。

3. Captain Cinema：AI 导演拍短片

来自字节跳动 Seed、约翰霍普金斯大学、斯坦福大学等3

给定一段故事文字，自动生成一部有连贯剧情的短片——这是 Captain Cinema 的目标。

难点在于「长程一致性」：AI 生成视频时很容易前后割裂，同一个角色换了个场景就认不出来了。Captain Cinema 的解法分两步：

先画关键帧：从整个故事里挑出关键节点，生成一系列静态画面，确保角色、场景风格前后统一
再填动态内容：以关键帧为锚点，让视频生成模型填充关键帧之间的动态画面

这种「先规划再生成」的策略，是目前长视频生成的主流思路之一。

4. TTS-VAR：测试阶段多算几步，图片就能变更好

来自香港大学、阿里巴巴通义等4

大家都知道「大模型推理时多想几步」能提高答题质量（Test-Time Scaling）。这篇论文把同样的思路搬到了图片生成模型上。

VAR（Visual Auto-Regressive）是一种把图片生成当成「预测下一块像素」来做的模型。TTS-VAR 把生成过程变成一个「路径搜索问题」——在每一步多保留几个候选方案，最后选最优的路径，而不是只沿一条路走到底。

效果：在不重新训练模型的情况下，用更多计算换更好的图片质量，验证了语言模型里「推理时 scaling」的逻辑在视觉生成领域同样成立。

5. EarthCrafter：用 AI 生成真实感 3D 地球场景

来自阿里巴巴达摩院、复旦大学等5

想象一下：给 AI 一段文字描述，或者一张卫星图，它就能生成一块对应的 3D 地形——有山有河，俯视角度下完全真实。这就是 EarthCrafter 做的事。

核心技术是「双稀疏潜扩散」（Dual-Sparse Latent Diffusion）——听名字复杂，核心就是两点：把大场景拆成稀疏的小块分别处理（省内存），同时保证相邻小块之间拼接连贯。支持文字→地形、图像→地形两种输入方式。

应用场景：游戏地图生成、虚拟地球、地理数据可视化。

whiteinblue.github.io

EarthCrafter 项目主页

Scalable 3D Earth Generation via Dual-Sparse Latent Diffusion

正在加载链接预览…

6. TeleChat2 系列：国产大模型的新一代技术报告

来自中国电信 TeleAI6

这是中国电信 AI 团队发布的 TeleChat2、TeleChat2.5 和 T1 三个模型的技术报告。

模型架构变化不大，性能提升主要来自训练策略的升级：

预训练：在 10 万亿高质量 token 上做了预训练（相比前代大幅提升）
后训练：标准的 SFT + DPO 流程，TeleChat2.5 和 T1 还加入了领域特定数据的持续预训练和强化学习
T1：主打推理增强，类似 o1 路线

值得关注的是，「少改架构、重押训练策略」正成为国内大模型的普遍做法。

7. 新 GloVe 词向量：2024 年版更新了什么

来自斯坦福 NLP 组7

GloVe 是一个经典的词向量工具，2014 年发布，至今在 NLP 任务里广泛使用。斯坦福 NLP 组 10 年后终于出了更新版。

这次更新的核心价值不只是「加入了新词」：

训练数据重新整理：用 2024 年的语料训练，语言使用已经变化了 10 年
完整文档化：原来 2014 版缺少明确的数据来源记录，这次详细记录了数据版本和预处理步骤，方便研究复现
减少 OOV 问题：更新后的词表覆盖了更多新词，下游任务里「词表外词汇（Out-of-Vocabulary）」的情况减少了

对于不用 Transformer 的轻量 NLP 场景，这次更新值得跟进。

8. Spelke 分割：向婴儿学习「看世界」

来自斯坦福大学、OpenAI、Noetik 等8

人类婴儿很小就能分辨「什么东西会一起动」——比如一个杯子放在桌上，推它的时候桌子不动，杯子动了，婴儿就知道它们是两个不同的物体。这种能力来自发展心理学家 Spelke 提出的「Spelke 物体」概念。

这篇论文把这个概念做成了 AI 系统：

SpelkeBench：一个新数据集，专门测试模型识别「会一起运动的区域」的能力
SpelkeNet：一个视觉世界模型，通过预测「如果我推这个地方，其他地方怎么动」来发现物体边界
在 SpelkeBench 上，SpelkeNet 的表现超过了 SAM（Meta 的视觉分割大模型）

这套方法对机器人抓取、物理场景理解有直接价值，因为它不依赖「这是什么类别的物体」，只看物理运动关系。

9. Iwin Transformer：一步到位的全局视觉注意力

来自多位研究者9

Swin Transformer 是视觉领域的经典模型，但它有个限制：要做「全局」信息融合，必须连续跑两个模块（窗口注意力 + 偏移窗口注意力）。

Iwin（Interleaved Window）的改法是：把注意力和卷积放在一个模块里同时算——注意力负责连接远处的 token，卷积负责融合相邻的 token，一步完成两件事。

此外，Iwin 还去掉了位置编码，可以从低分辨率直接微调到高分辨率，不需要重新训练。在 ImageNet 分类上达到了 87.4 的 top-1 准确率。

10. 用 CNN 同时猜年龄和性别：精准广告投放的技术底座

来自多位研究者10

这篇论文训练了一个单一 CNN 模型，从人脸图像中同时预测年龄和性别，目标应用场景是精准广告投放。

关键数字：性别分类准确率 95%，年龄估计平均误差 5.77 岁。

论文还发现了一个实际问题：模型对儿童年龄的估计误差明显高于成年人，指出需要针对性的数据增强。不过，这类人脸分析技术的实际部署涉及隐私问题，研究本身并未深入讨论这一维度。

11. HLFormer：在双曲空间里做视频检索

来自多位研究者11

「部分相关视频检索（PRVR）」解决的问题是：一段文字描述只覆盖了视频的一部分内容，如何从数据库里找到对应的完整视频？

现有方法用欧几里得空间（普通的向量空间）做嵌入，但视频本身有层级结构（镜头→场景→片段），欧氏空间不太擅长表达层级关系。

HLFormer 引入了「双曲空间」——这种空间天然适合表达树形/层级结构，用同样的维度能存更丰富的层级信息。在视频检索基准上，HLFormer 超过了此前的最优方法。

今日速览

论文	方向	一句话核心
GSPO	大模型训练	序列级 RL 优化，MoE 训练更稳定
MUR	推理效率	动量引导，推理 token 减少 20-40%
Captain Cinema	视频生成	先规划关键帧，再填充动态内容
TTS-VAR	图片生成	测试时多路径搜索，不训练就能提升质量
EarthCrafter	3D 生成	文字/图像→3D 地球地形生成
TeleChat2 系列	国产大模型	架构不变，训练策略大幅升级
新 GloVe	词向量	经典工具 10 年后首次更新
Spelke 分割	视觉感知	学婴儿看世界，按物理运动分割场景
Iwin Transformer	视觉模型	一个模块完成全局信息融合
CNN 人脸分析	计算机视觉	同时预测年龄+性别，准确率 95%
HLFormer	视频检索	双曲空间处理视频层级结构

HuggingFace 论文日报 · 2026-05-20：11 篇热榜论文通俗解读

HuggingFace 论文日报 · 2026-05-20

1. GSPO：让 AI 训练更稳定的新算法

2. MUR：给 AI 推理加「动量刹车」

3. Captain Cinema：AI 导演拍短片

4. TTS-VAR：测试阶段多算几步，图片就能变更好

5. EarthCrafter：用 AI 生成真实感 3D 地球场景

EarthCrafter 项目主页

6. TeleChat2 系列：国产大模型的新一代技术报告

7. 新 GloVe 词向量：2024 年版更新了什么

8. Spelke 分割：向婴儿学习「看世界」

9. Iwin Transformer：一步到位的全局视觉注意力

10. 用 CNN 同时猜年龄和性别：精准广告投放的技术底座

11. HLFormer：在双曲空间里做视频检索

今日速览

参考来源

EarthCrafter 项目主页