HuggingFace 论文日报 · 2025/05/20:GSPO 让 Qwen3 训练更稳,AI 短片生成迎来关键突破

HuggingFace 论文日报 · 2025/05/20:GSPO 让 Qwen3 训练更稳,AI 短片生成迎来关键突破

今日 HuggingFace 热榜精选 8 篇:阿里 GSPO 用序列级打分稳住大规模 RL 训练;字节联合斯坦福让 AI 生成有故事逻辑的短片;斯坦福/OpenAI 用物理运动感知颠覆传统语义分割;GloVe 十年后发布 2024 升级版。附通俗解读与一眼扫览表格。

HuggingFace 论文日报
20/5/2026 · 19:50
1 suscripciones · 1 contenidos

Vistazo a la investigación

HuggingFace 论文日报 · 2025 年 5 月 20 日

今天 HuggingFace 热榜共 11 篇论文,涵盖 AI 训练算法、视频生成、图像理解、词向量更新等多个方向。以下精选 8 篇,从「外行也能懂」的角度逐一解读。

1. GSPO:让大模型的「自我打分」更稳、更聪明

来自:阿里巴巴 Qwen 团队 1
你训练一个大模型时,怎么告诉它「这个回答更好」?目前最流行的方式是「强化学习」——让模型自己生成一堆答案,再打分筛出好的继续学习。但这个打分过程很容易不稳定,尤其是大规模的 MoE(混合专家)模型,训练经常崩掉。
Qwen 团队提出的 GSPO(组序列策略优化) 换了一个思路:之前的算法(比如 GRPO)是以每个词为单位打分,GSPO 改成以整段回复为单位打分。就像批改作文——你评的是整篇文章的质量,而不是每个字值多少分。
换成整段打分带来两个好处:训练更稳定,训练速度也更快。Qwen3 系列模型就用了这套方法,效果明显提升。

2. MUR:让模型「知道自己什么时候不需要再想了」

来自:西安交通大学、南洋理工大学等 2
现在的推理型大模型(比如 o1/o3)喜欢在回答前「慢慢想一大段」,有时这段思考对最终答案毫无贡献,纯粹在浪费计算资源——业内叫「过度思考」。
MUR 的解法受物理学「动量」概念启发:一辆车在高速上不需要每秒都猛踩油门,当速度足够稳定就可以维持巡航。MUR 会持续估算模型当前的「不确定性」,如果不确定性已经很低、答案趋于收敛,就让模型尽早收手,不再继续推理。
关键优势:不需要额外训练,直接插进现有模型的推理过程即可。几乎是免费的效率提升。

3. Captain Cinema:用 AI 拍「短片」,而不只是几秒的视频片段

来自:字节跳动 Seed、斯坦福、约翰霍普金斯 3
当前 AI 视频生成有个根本问题:生成几秒的短片段还行,但拍一个有完整故事线的「短片」几乎不可能——角色长得不一样,场景前后不连贯,故事逻辑断裂。
Captain Cinema 把这个问题拆成两步走:
  1. 自上而下规划:先用文字故事线生成一批关键帧,像分镜头脚本一样确定整体叙事走向和视觉一致性(角色长什么样,场景是什么风格)。
  2. 自下而上填充:把关键帧喂给支持长上下文的视频模型,让它把关键帧之间的动态过渡生成出来。
这套「先定格局、再填细节」的方式,让 AI 第一次有可能生成有前后逻辑、人物外貌一致的短片,而不只是碎片化的视觉特效。

4. TTS-VAR:图像生成也能「测试时花更多计算换更好质量」

来自:香港大学、阿里通义实验室、香港中文大学 4
语言模型有个被验证过的规律:推理时多花点计算(比如让模型多想几步),质量就会提升,不需要重新训练。这叫「测试时缩放(Test-Time Scaling)」。
但图像生成领域一直没有这么干净的方案。TTS-VAR 把图像生成过程建模成一个「路径搜索问题」:从多条候选生成路径中,动态挑出效果最好的继续走下去,而不是闷着头一路生成到底。
用白话说:就像你写一篇文章,边写边读一读,觉得不好的段落就换一个方向重写,最终出来的文章质量比闷头写一遍要好很多。

5. EarthCrafter:用扩散模型生成「城市街区级」的三维地球场景

来自:阿里达摩院 5
卫星图和地图数据大家都见过,但要生成「可交互的三维地球场景」——比如城市规划模拟、游戏世界构建——以前要么精度不够,要么生成极慢。
EarthCrafter 的思路:把地球表面的三维信息压缩成「稀疏体素」(可以理解为把地图分成一格格的小方块,只记录有意义的位置),然后用扩散模型(和 Stable Diffusion 同类的技术)在这些体素上做生成。
「双稀疏」的意思是从两个层面都做了压缩:结构层和语义层都只保留关键信息,所以即使是城市街区这种信息量极大的场景,也能高效生成。项目已开源,提供了演示页面。6

6. TeleChat2 / T1:电信运营商也在做自己的「通用 + 推理」大模型

来自:TeleAI(中国电信 AI 研究院) 7
TeleChat2 和 T1 是中国电信 AI 研究院发布的新一代大模型系列技术报告,对研究者来说值得关注的点:
  • 在 10 万亿 token 上做了预训练,规模和当前头部开源模型相当
  • 加入了「持续预训练 + 强化学习」阶段,T1 专门针对推理密集型任务做了强化
  • 架构改动不大,但通过数据配比和训练策略的改进,性能有明显跳升
这份报告记录了从通用模型到推理增强模型的完整训练链路,对复现类研究有参考价值。

7. New GloVe:2014 年的词向量经典,十年后发布 2024 升级版

来自:斯坦福 NLP 组 8
GloVe 可能是 NLP 历史上被引用最多的词向量模型之一,2014 年发布,至今仍广泛使用。问题是:2014 年版本没有「covid」「ChatGPT」「deepfake」这些词,很多词的语义也发生了偏移。
斯坦福 NLP 组在十年后发布了更新版,用 2024 年的语料重新训练,同时补充记录了原版漏掉的数据版本和预处理细节。
这不是什么革命性突破,但对很多不需要大模型的轻量 NLP 应用来说,有一份「与当代语言对齐的 GloVe 词向量」是实用的基础设施更新。

8. Spelke Segments:教 AI 像婴儿一样理解「哪些东西是一个整体」

来自:斯坦福大学、OpenAI 9
人类从婴儿期开始就能判断「这个茶杯和杯垫是两件东西,不是一件」。发展心理学把这种能力叫 Spelke 物体感知——我们不是靠「它是什么类别」来切分物体,而是靠「它们在物理力作用下会不会一起动」。
当前主流的 CV 分割模型(比如 SAM)都是基于语义类别来分割——认出「这是猫」「这是椅子」——但这带来一个问题:不认识的新物体就分不好。
这篇论文用一个完全不同的路径:
  • 构建了 SpelkeBench 数据集,专门标注「会一起运动的物理整体」
  • 训练了 SpelkeNet,它不学物体的名字,而是学「戳一下这个区域,哪些地方会跟着动」
实验结果:SpelkeNet 在 SpelkeBench 上超过了 SAM。在实际的机器人操作任务里(比如「把这个物体挪走」),使用 Spelke 分割方案的机器人比用传统语义分割的机器人成功率更高。

今日热榜一眼扫

论文机构一句话核心
GSPO阿里 Qwen序列级打分让 RL 训练更稳
MUR西安交大等动量不确定性控制推理深度
Captain Cinema字节 Seed 等关键帧规划 → 短片生成
TTS-VAR港大 / 阿里图像生成也能测试时缩放
EarthCrafter阿里达摩院扩散模型生成三维地球场景
TeleChat2 / T1中国电信 AI10 万亿 token 训练 + 强化推理
New GloVe斯坦福 NLP十年后更新,词向量对齐当代语言
Spelke Segments斯坦福 / OpenAI物理运动感知取代语义分割

来源:HuggingFace Daily Papers · 2025-05-20

Añade más opiniones o contexto en torno a este contenido.

  • Inicia sesión para comentar.