HuggingFace 论文日报 · 2025 年 5 月 20 日

今天 HuggingFace 热榜共 11 篇论文，涵盖 AI 训练算法、视频生成、图像理解、词向量更新等多个方向。以下精选 8 篇，从「外行也能懂」的角度逐一解读。

1. GSPO：让大模型的「自我打分」更稳、更聪明

来自：阿里巴巴 Qwen 团队 1

你训练一个大模型时，怎么告诉它「这个回答更好」？目前最流行的方式是「强化学习」——让模型自己生成一堆答案，再打分筛出好的继续学习。但这个打分过程很容易不稳定，尤其是大规模的 MoE（混合专家）模型，训练经常崩掉。

Qwen 团队提出的 GSPO（组序列策略优化） 换了一个思路：之前的算法（比如 GRPO）是以每个词为单位打分，GSPO 改成以整段回复为单位打分。就像批改作文——你评的是整篇文章的质量，而不是每个字值多少分。

换成整段打分带来两个好处：训练更稳定，训练速度也更快。Qwen3 系列模型就用了这套方法，效果明显提升。

2. MUR：让模型「知道自己什么时候不需要再想了」

来自：西安交通大学、南洋理工大学等 2

现在的推理型大模型（比如 o1/o3）喜欢在回答前「慢慢想一大段」，有时这段思考对最终答案毫无贡献，纯粹在浪费计算资源——业内叫「过度思考」。

MUR 的解法受物理学「动量」概念启发：一辆车在高速上不需要每秒都猛踩油门，当速度足够稳定就可以维持巡航。MUR 会持续估算模型当前的「不确定性」，如果不确定性已经很低、答案趋于收敛，就让模型尽早收手，不再继续推理。

关键优势：不需要额外训练，直接插进现有模型的推理过程即可。几乎是免费的效率提升。

3. Captain Cinema：用 AI 拍「短片」，而不只是几秒的视频片段

来自：字节跳动 Seed、斯坦福、约翰霍普金斯 3

当前 AI 视频生成有个根本问题：生成几秒的短片段还行，但拍一个有完整故事线的「短片」几乎不可能——角色长得不一样，场景前后不连贯，故事逻辑断裂。

Captain Cinema 把这个问题拆成两步走：

自上而下规划：先用文字故事线生成一批关键帧，像分镜头脚本一样确定整体叙事走向和视觉一致性（角色长什么样，场景是什么风格）。
自下而上填充：把关键帧喂给支持长上下文的视频模型，让它把关键帧之间的动态过渡生成出来。

这套「先定格局、再填细节」的方式，让 AI 第一次有可能生成有前后逻辑、人物外貌一致的短片，而不只是碎片化的视觉特效。

4. TTS-VAR：图像生成也能「测试时花更多计算换更好质量」

来自：香港大学、阿里通义实验室、香港中文大学 4

语言模型有个被验证过的规律：推理时多花点计算（比如让模型多想几步），质量就会提升，不需要重新训练。这叫「测试时缩放（Test-Time Scaling）」。

但图像生成领域一直没有这么干净的方案。TTS-VAR 把图像生成过程建模成一个「路径搜索问题」：从多条候选生成路径中，动态挑出效果最好的继续走下去，而不是闷着头一路生成到底。

用白话说：就像你写一篇文章，边写边读一读，觉得不好的段落就换一个方向重写，最终出来的文章质量比闷头写一遍要好很多。

5. EarthCrafter：用扩散模型生成「城市街区级」的三维地球场景

来自：阿里达摩院 5

卫星图和地图数据大家都见过，但要生成「可交互的三维地球场景」——比如城市规划模拟、游戏世界构建——以前要么精度不够，要么生成极慢。

EarthCrafter 的思路：把地球表面的三维信息压缩成「稀疏体素」（可以理解为把地图分成一格格的小方块，只记录有意义的位置），然后用扩散模型（和 Stable Diffusion 同类的技术）在这些体素上做生成。

「双稀疏」的意思是从两个层面都做了压缩：结构层和语义层都只保留关键信息，所以即使是城市街区这种信息量极大的场景，也能高效生成。项目已开源，提供了演示页面。6

6. TeleChat2 / T1：电信运营商也在做自己的「通用 + 推理」大模型

来自：TeleAI（中国电信 AI 研究院） 7

TeleChat2 和 T1 是中国电信 AI 研究院发布的新一代大模型系列技术报告，对研究者来说值得关注的点：

在 10 万亿 token 上做了预训练，规模和当前头部开源模型相当
加入了「持续预训练 + 强化学习」阶段，T1 专门针对推理密集型任务做了强化
架构改动不大，但通过数据配比和训练策略的改进，性能有明显跳升

这份报告记录了从通用模型到推理增强模型的完整训练链路，对复现类研究有参考价值。

7. New GloVe：2014 年的词向量经典，十年后发布 2024 升级版

来自：斯坦福 NLP 组 8

GloVe 可能是 NLP 历史上被引用最多的词向量模型之一，2014 年发布，至今仍广泛使用。问题是：2014 年版本没有「covid」「ChatGPT」「deepfake」这些词，很多词的语义也发生了偏移。

斯坦福 NLP 组在十年后发布了更新版，用 2024 年的语料重新训练，同时补充记录了原版漏掉的数据版本和预处理细节。

这不是什么革命性突破，但对很多不需要大模型的轻量 NLP 应用来说，有一份「与当代语言对齐的 GloVe 词向量」是实用的基础设施更新。

8. Spelke Segments：教 AI 像婴儿一样理解「哪些东西是一个整体」

来自：斯坦福大学、OpenAI 9

人类从婴儿期开始就能判断「这个茶杯和杯垫是两件东西，不是一件」。发展心理学把这种能力叫 Spelke 物体感知——我们不是靠「它是什么类别」来切分物体，而是靠「它们在物理力作用下会不会一起动」。

当前主流的 CV 分割模型（比如 SAM）都是基于语义类别来分割——认出「这是猫」「这是椅子」——但这带来一个问题：不认识的新物体就分不好。

这篇论文用一个完全不同的路径：

构建了 SpelkeBench 数据集，专门标注「会一起运动的物理整体」
训练了 SpelkeNet，它不学物体的名字，而是学「戳一下这个区域，哪些地方会跟着动」

实验结果：SpelkeNet 在 SpelkeBench 上超过了 SAM。在实际的机器人操作任务里（比如「把这个物体挪走」），使用 Spelke 分割方案的机器人比用传统语义分割的机器人成功率更高。

今日热榜一眼扫

论文	机构	一句话核心
GSPO	阿里 Qwen	序列级打分让 RL 训练更稳
MUR	西安交大等	动量不确定性控制推理深度
Captain Cinema	字节 Seed 等	关键帧规划 → 短片生成
TTS-VAR	港大 / 阿里	图像生成也能测试时缩放
EarthCrafter	阿里达摩院	扩散模型生成三维地球场景
TeleChat2 / T1	中国电信 AI	10 万亿 token 训练 + 强化推理
New GloVe	斯坦福 NLP	十年后更新，词向量对齐当代语言
Spelke Segments	斯坦福 / OpenAI	物理运动感知取代语义分割

来源：HuggingFace Daily Papers · 2025-05-20

HuggingFace 论文日报 · 2025/05/20：GSPO 让 Qwen3 训练更稳，AI 短片生成迎来关键突破