
HuggingFace 今日 Trending 论文速览 | 2026-05-20
今日 11 篇热门论文解读:GSPO(Qwen3 的 RL 训练算法)、MUR(推理开销减半同时提升准确率)、Captain Cinema(文本生成短片)、EarthCrafter(AI 生成千平方公里三维地球)等,涵盖训练算法、推理效率、视频与 3D 生成、视觉理解多个方向。

리서치 브리프
今日(2026-05-20)HuggingFace trending 论文共 11 篇,涵盖强化学习训练算法、推理效率、视频生成、3D 地球生成、视觉理解等方向。以下按关注度排序解读。
1. GSPO:训练 Qwen3 的那个 RL 算法,终于开源了
论文:Group Sequence Policy Optimization 1
用强化学习(RL)训练大语言模型,核心问题一直是:如何判断「这个词生成得好不好」,然后给模型一个反馈信号。
主流做法(GRPO 等)是在 token 级别打分——每生成一个词就算一次「这词生成对了吗」。听起来挺细的,但问题在于:一句话里前一个词是否正确,很难单独判断,必须结合整句话来看。token 级的评分往往不稳定,尤其是在 MoE(混合专家,一种让模型变大但不变慢的架构)上训练时容易「抖」。
GSPO 的改法很直白:把打分粒度从词级改到序列(整段话)级别。
- 比较的是「这组生成方案整体上哪个更好」,而不是逐词比对
- 剪切(clipping)、奖励、优化都在序列层面做
- 结果:在 MoE 模型上训练更稳定,效率比 GRPO 更高
这套算法已经用在了 Qwen3 最新版的训练上。
同行评审状态:预印本,已在 Qwen3 生产环境验证。
2. MUR:让 AI 思考得更聪明,而不是更久
论文:Momentum Uncertainty-guided Reasoning 2
现在流行一种做法叫「测试时扩展」(Test-Time Scaling):让模型在给出答案之前,先花更多时间「想一想」,生成一段推理过程。效果确实更好,但代价是 token 消耗暴增——模型容易在已经有把握的步骤上继续反复验证,「过度思考」。
MUR 的思路来自物理学里的动量概念。它不是让模型每步都想同样久,而是:
- 追踪每一步推理的不确定度,以及不确定度随时间的变化趋势(「动量」)
- 不确定度高的步骤多分配计算,确定的步骤少花时间
- 引入一个参数
γ,可以用单个数字控制整体思考预算
不需要重新训练模型,直接在推理时插入。
在四个数学/科学基准(MATH-500、AIME24/25、GPQA-diamond)上,使用 Qwen3 1.7B-8B 测试:平均计算量削减 50% 以上,准确率还提升了 0.62–3.37%。
同行评审状态:预印本。
3. Captain Cinema:给它一段剧情简介,它来拍短片
论文:Captain Cinema: Towards Short Movie Generation 3
AI 生视频到目前为止大多是 5-10 秒的片段,长一点就会出现角色变脸、场景跳跃等问题。Captain Cinema 想解决的是:怎么让 AI 生成一部连贯的短片?
整个流程分两步:
- 自上而下的关键帧规划:先把剧情分成多个场景,为每个场景生成一张「导演草图」(关键帧),确保全片的视觉和故事逻辑一致
- 自下而上的视频合成:以关键帧为锚点,用支持长上下文的视频模型填充每两帧之间的动态画面
训练用的是专门整理的电影数据集,并引入了一种针对多模态 Diffusion Transformer(MM-DiT)的「交错训练策略」——交替喂图片序列和视频段,让模型既懂帧间一致性又懂时序动态。
项目主页:thecinema.ai
同行评审状态:预印本。
4. TTS-VAR:图像生成也能做「测试时扩展」了
论文:TTS-VAR: A Test-Time Scaling Framework for Visual Auto-Regressive Models 4
语言模型推理时可以「多想几步」来提升质量,图像生成能不能类似地「多探索几条路」?
VAR(视觉自回归模型)生成图像的方式类似下棋:从粗到细,一步一步把像素定下来。TTS-VAR 把这个过程建模成「路径搜索」,在生成的不同阶段分别用两种策略:
- 粗粒度阶段:候选方案多样性比精度更重要,用聚类算法保证生成路径之间有足够差异
- 细粒度阶段:用「潜力分」(综合了多步历史的评分函数)在候选中挑最有前途的继续
批量大小也是动态的——早期阶段多跑几条路,后期收敛后逐渐缩小。
在 Infinity(目前强度最高的开源 VAR 模型)上测试,GenEval 得分从 0.69 提升到 0.75,涨幅 8.7%,且无需任何再训练。代码已开源:github.com/ali-vilab/TTS-VAR
同行评审状态:预印本。
5. EarthCrafter:AI 生成千平方公里的三维地球
论文:EarthCrafter: Scalable 3D Earth Generation via Dual Sparse-Decoupled Latent Diffusion 5
大多数 3D 生成工作集中在单个物体或室内场景,一旦尺度扩大到地理级别(比如几百平方公里的城市或地形),计算量会爆炸式增长。
EarthCrafter 做了两件事:
数据侧:发布了 Aerial-Earth3D,目前最大的 3D 航拍数据集——5 万个场景,每个场景 600m×600m,共 4500 万帧 Google Earth 多视角图像,带深度图、法线、语义分割和相机位姿。
模型侧:核心思路是把「形状」和「外观」分开生成,各走一路 VAE 压缩,分别用扩散模型处理,而不是把所有信息塞进一个大模型里。条件可以是语义标注、单张图、或者什么都不给(无条件生成)。
应用包括:从语义地图生成城市鸟瞰图、无条件合成自然地形等。
同行评审状态:预印本。
6. TeleChat2/2.5/T1:国内自研 115B 大模型系列技术报告
论文:Technical Report of TeleChat2, TeleChat2.5 and T1 6
中国电信发布了新一代语言模型系列的技术报告,三个变体定位不同:
| 模型 | 参数规模 | 核心定位 |
|---|---|---|
| TeleChat2 | 35B / 115B | 通用基础模型,10T 高质量数据预训练 |
| TeleChat2.5 | 115B | 注重推理速度,适合低延迟场景 |
| T1 | 115B | 针对复杂推理,支持长链式思维(CoT) |
训练流程:预训练 → SFT 有监督微调 → DPO 偏好优化 → RL 强化学习,后两者叠加了代码和数学专项数据集的持续预训练。论文声称 T1-115B 在数学和编程任务上超过 o1-mini 和 GPT-4o 6。
全系列权重公开发布,包括后训练版本。
同行评审状态:预印本(技术报告形式)。
7. GloVe 2024:10 年的词向量,终于更新了
论文:A New Pair of GloVes 7
GloVe 是 2014 年发布的词向量模型,「词向量」就是把每个词映射成一串数字,让语义相近的词在数字空间里也挨得近。虽然现在大模型里早已用上了更复杂的 embedding,GloVe 因为轻量、快速,在很多轻量 NLP 任务里仍然大量使用。
问题是:2014 年的数据里没有「ChatGPT」「新冠」「TikTok」这些词,也反映不了过去十年的语言演化。
这篇论文用 Wikipedia、Gigaword 和 Dolma 数据集的 2024 年版本重新训练了两套 GloVe,做了完整文档记录(原版 2014 年模型连具体用的数据版本都没写清楚)。
评估结果:
- 新词覆盖明显提升,包含大量文化和地名类实体
- 词类比、词相似等结构性任务上表现与 2014 版相当
- 在非西方新闻语料的 NER(命名实体识别)等时效性任务上,2024 版准确率更高
同行评审状态:预印本。
8. SpelkeNet:让 AI 用婴儿的方式看世界
论文:Discovering and using Spelke segments 8
「Spelke 对象」是发展心理学里的概念,得名于认知科学家 Elizabeth Spelke。婴儿在还不认识「椅子」「桌子」这些概念之前,就能感知「哪些东西在受力后会一起运动」——椅子的四条腿、桌面和桌腿,婴儿会把它们识别为一个物体,而不是分开的四块木头。这种基于「运动因果」的物体感知叫 Spelke 分割。
现有的 AI 视觉分割(比如 Meta 的 SAM)依赖语义类别——「这是一只猫,那是一辆车」。但机器人操作物体时,需要的不是「这是什么」,而是「我推它时哪些部分会跟着动」。
SpelkeNet 的做法:
- 发布 SpelkeBench 基准数据集,包含自然图像中的 Spelke 对象标注
- 训练一个「视觉世界模型」,预测「如果我戳这个位置,场景会怎么动」
- 通过「统计反事实探测」(对多个高运动区域虚拟施力,统计哪些区域联动)提取 Spelke 分割
在 SpelkeBench 上超越了 SAM 等有监督基线,并在 3DEditBench(物理对象操作)任务上显著提升了下游效果。
同行评审状态:预印本。
9. Iwin Transformer:不需要位置编码的视觉骨干网络
论文:Iwin Transformer: Hierarchical Vision Transformer using Interleaved Windows 9
视觉 Transformer(ViT)家族里,Swin Transformer 是应用最广的骨干网络之一。它把图像切成小窗口,在窗口内做注意力,相邻窗口之间通过「移位窗口」交换信息——但这需要两个连续 block 才能近似全局注意力,信息传递效率不高。
Iwin Transformer 的改进思路:
- 把「窗口注意力」(连接远处 token)和「深度可分离卷积」(连接相邻 token)放在同一个模块里,一步完成局部+全局信息交换
- 不使用位置编码,可以直接在不同分辨率上微调,不需要插值处理
ImageNet-1K 图像分类 Top-1 准确率 87.4%,并在语义分割、视频动作识别任务上表现具有竞争力。代码:github.com/Cominder/Iwin-Transformer
同行评审状态:预印本。
10. HLFormer:用双曲空间让视频检索更懂层次结构
论文:HLFormer: Enhancing Partially Relevant Video Retrieval with Hyperbolic Learning 10
「部分相关视频检索」(PRVR)是指:给一段文字描述(比如「一个人在公园里遛狗」),从一批没有剪辑过的长视频里找到包含相关内容的片段——但视频里只有部分内容跟描述有关。
传统方法在欧几里得空间里做,但欧式空间不擅长表达层次结构(比如「遛狗」是「户外活动」的下位概念,「户外活动」又属于「日常生活」)。
HLFormer 引入了双曲空间(Hyperbolic Space)——树状层次结构在双曲空间里能更自然地嵌入,维度效率更高。具体做法:
- Lorentz 注意力块处理层次语义
- 欧式注意力块处理局部特征
- 两路特征用自适应模块动态融合
- 增加「偏序保持损失」,在双曲空间里强制「文本 < 视频」的语义层级约束
在主流 PRVR 基准上超过现有方法,代码已发布:github.com/lijun2005/ICCV25-HLFormer
同行评审状态:预印本(提交 ICCV 2025)。
11. 人脸年龄+性别同步识别:广告投放里的老问题
论文:Deep Learning-Based Age Estimation and Gender Classification for Targeted Advertisement 11
这篇偏工程向。在数字广告场景里,想根据摄像头前的人调整展示内容,需要快速判断对方的大概年龄段和性别。
传统方法把年龄估计和性别分类作为两个独立任务跑。这篇论文的思路是:年龄和性别在人脸特征里本来就有关联(面部骨骼结构、皮肤纹理等既决定性别也体现年龄),分开学是在浪费共享信息。
用一个自定义 CNN 同时完成两个任务,共享底层特征提取:
- 性别分类准确率 95%
- 年龄估计平均误差 5.77 岁
论文还分析了在不同年龄段上的误差分布,发现对儿童和青少年的年龄估计误差明显更大,提出需要针对性数据增强。
同行评审状态:预印本。
来源:HuggingFace Daily Papers,截取日期 2026-05-20
이 콘텐츠를 둘러싼 관점이나 맥락을 계속 보강해 보세요.