HuggingFace 今日 Trending 论文速览 | 2026-05-20

今日（2026-05-20）HuggingFace trending 论文共 11 篇，涵盖强化学习训练算法、推理效率、视频生成、3D 地球生成、视觉理解等方向。以下按关注度排序解读。

1. GSPO：训练 Qwen3 的那个 RL 算法，终于开源了

论文：Group Sequence Policy Optimization 1

用强化学习（RL）训练大语言模型，核心问题一直是：如何判断「这个词生成得好不好」，然后给模型一个反馈信号。

主流做法（GRPO 等）是在 token 级别打分——每生成一个词就算一次「这词生成对了吗」。听起来挺细的，但问题在于：一句话里前一个词是否正确，很难单独判断，必须结合整句话来看。token 级的评分往往不稳定，尤其是在 MoE（混合专家，一种让模型变大但不变慢的架构）上训练时容易「抖」。

GSPO 的改法很直白：把打分粒度从词级改到序列（整段话）级别。

比较的是「这组生成方案整体上哪个更好」，而不是逐词比对
剪切（clipping）、奖励、优化都在序列层面做
结果：在 MoE 模型上训练更稳定，效率比 GRPO 更高

这套算法已经用在了 Qwen3 最新版的训练上。

同行评审状态：预印本，已在 Qwen3 生产环境验证。

2. MUR：让 AI 思考得更聪明，而不是更久

论文：Momentum Uncertainty-guided Reasoning 2

现在流行一种做法叫「测试时扩展」（Test-Time Scaling）：让模型在给出答案之前，先花更多时间「想一想」，生成一段推理过程。效果确实更好，但代价是 token 消耗暴增——模型容易在已经有把握的步骤上继续反复验证，「过度思考」。

MUR 的思路来自物理学里的动量概念。它不是让模型每步都想同样久，而是：

追踪每一步推理的不确定度，以及不确定度随时间的变化趋势（「动量」）
不确定度高的步骤多分配计算，确定的步骤少花时间
引入一个参数 γ，可以用单个数字控制整体思考预算

不需要重新训练模型，直接在推理时插入。

在四个数学/科学基准（MATH-500、AIME24/25、GPQA-diamond）上，使用 Qwen3 1.7B-8B 测试：平均计算量削减 50% 以上，准确率还提升了 0.62–3.37%。

同行评审状态：预印本。

3. Captain Cinema：给它一段剧情简介，它来拍短片

论文：Captain Cinema: Towards Short Movie Generation 3

AI 生视频到目前为止大多是 5-10 秒的片段，长一点就会出现角色变脸、场景跳跃等问题。Captain Cinema 想解决的是：怎么让 AI 生成一部连贯的短片？

整个流程分两步：

自上而下的关键帧规划：先把剧情分成多个场景，为每个场景生成一张「导演草图」（关键帧），确保全片的视觉和故事逻辑一致
自下而上的视频合成：以关键帧为锚点，用支持长上下文的视频模型填充每两帧之间的动态画面

训练用的是专门整理的电影数据集，并引入了一种针对多模态 Diffusion Transformer（MM-DiT）的「交错训练策略」——交替喂图片序列和视频段，让模型既懂帧间一致性又懂时序动态。

项目主页：thecinema.ai

同行评审状态：预印本。

4. TTS-VAR：图像生成也能做「测试时扩展」了

论文：TTS-VAR: A Test-Time Scaling Framework for Visual Auto-Regressive Models 4

语言模型推理时可以「多想几步」来提升质量，图像生成能不能类似地「多探索几条路」？

VAR（视觉自回归模型）生成图像的方式类似下棋：从粗到细，一步一步把像素定下来。TTS-VAR 把这个过程建模成「路径搜索」，在生成的不同阶段分别用两种策略：

粗粒度阶段：候选方案多样性比精度更重要，用聚类算法保证生成路径之间有足够差异
细粒度阶段：用「潜力分」（综合了多步历史的评分函数）在候选中挑最有前途的继续

批量大小也是动态的——早期阶段多跑几条路，后期收敛后逐渐缩小。

在 Infinity（目前强度最高的开源 VAR 模型）上测试，GenEval 得分从 0.69 提升到 0.75，涨幅 8.7%，且无需任何再训练。代码已开源：github.com/ali-vilab/TTS-VAR

同行评审状态：预印本。

5. EarthCrafter：AI 生成千平方公里的三维地球

论文：EarthCrafter: Scalable 3D Earth Generation via Dual Sparse-Decoupled Latent Diffusion 5

大多数 3D 生成工作集中在单个物体或室内场景，一旦尺度扩大到地理级别（比如几百平方公里的城市或地形），计算量会爆炸式增长。

EarthCrafter 做了两件事：

数据侧：发布了 Aerial-Earth3D，目前最大的 3D 航拍数据集——5 万个场景，每个场景 600m×600m，共 4500 万帧 Google Earth 多视角图像，带深度图、法线、语义分割和相机位姿。

模型侧：核心思路是把「形状」和「外观」分开生成，各走一路 VAE 压缩，分别用扩散模型处理，而不是把所有信息塞进一个大模型里。条件可以是语义标注、单张图、或者什么都不给（无条件生成）。

应用包括：从语义地图生成城市鸟瞰图、无条件合成自然地形等。

项目主页：whiteinblue.github.io/earthcrafter

同行评审状态：预印本。

6. TeleChat2/2.5/T1：国内自研 115B 大模型系列技术报告

论文：Technical Report of TeleChat2, TeleChat2.5 and T1 6

中国电信发布了新一代语言模型系列的技术报告，三个变体定位不同：

模型	参数规模	核心定位
TeleChat2	35B / 115B	通用基础模型，10T 高质量数据预训练
TeleChat2.5	115B	注重推理速度，适合低延迟场景
T1	115B	针对复杂推理，支持长链式思维（CoT）

训练流程：预训练 → SFT 有监督微调 → DPO 偏好优化 → RL 强化学习，后两者叠加了代码和数学专项数据集的持续预训练。论文声称 T1-115B 在数学和编程任务上超过 o1-mini 和 GPT-4o 6。

全系列权重公开发布，包括后训练版本。

同行评审状态：预印本（技术报告形式）。

7. GloVe 2024：10 年的词向量，终于更新了

论文：A New Pair of GloVes 7

GloVe 是 2014 年发布的词向量模型，「词向量」就是把每个词映射成一串数字，让语义相近的词在数字空间里也挨得近。虽然现在大模型里早已用上了更复杂的 embedding，GloVe 因为轻量、快速，在很多轻量 NLP 任务里仍然大量使用。

问题是：2014 年的数据里没有「ChatGPT」「新冠」「TikTok」这些词，也反映不了过去十年的语言演化。

这篇论文用 Wikipedia、Gigaword 和 Dolma 数据集的 2024 年版本重新训练了两套 GloVe，做了完整文档记录（原版 2014 年模型连具体用的数据版本都没写清楚）。

评估结果：

新词覆盖明显提升，包含大量文化和地名类实体
词类比、词相似等结构性任务上表现与 2014 版相当
在非西方新闻语料的 NER（命名实体识别）等时效性任务上，2024 版准确率更高

同行评审状态：预印本。

8. SpelkeNet：让 AI 用婴儿的方式看世界

论文：Discovering and using Spelke segments 8

「Spelke 对象」是发展心理学里的概念，得名于认知科学家 Elizabeth Spelke。婴儿在还不认识「椅子」「桌子」这些概念之前，就能感知「哪些东西在受力后会一起运动」——椅子的四条腿、桌面和桌腿，婴儿会把它们识别为一个物体，而不是分开的四块木头。这种基于「运动因果」的物体感知叫 Spelke 分割。

现有的 AI 视觉分割（比如 Meta 的 SAM）依赖语义类别——「这是一只猫，那是一辆车」。但机器人操作物体时，需要的不是「这是什么」，而是「我推它时哪些部分会跟着动」。

SpelkeNet 的做法：

发布 SpelkeBench 基准数据集，包含自然图像中的 Spelke 对象标注
训练一个「视觉世界模型」，预测「如果我戳这个位置，场景会怎么动」
通过「统计反事实探测」（对多个高运动区域虚拟施力，统计哪些区域联动）提取 Spelke 分割

在 SpelkeBench 上超越了 SAM 等有监督基线，并在 3DEditBench（物理对象操作）任务上显著提升了下游效果。

同行评审状态：预印本。

9. Iwin Transformer：不需要位置编码的视觉骨干网络

论文：Iwin Transformer: Hierarchical Vision Transformer using Interleaved Windows 9

视觉 Transformer（ViT）家族里，Swin Transformer 是应用最广的骨干网络之一。它把图像切成小窗口，在窗口内做注意力，相邻窗口之间通过「移位窗口」交换信息——但这需要两个连续 block 才能近似全局注意力，信息传递效率不高。

Iwin Transformer 的改进思路：

把「窗口注意力」（连接远处 token）和「深度可分离卷积」（连接相邻 token）放在同一个模块里，一步完成局部+全局信息交换
不使用位置编码，可以直接在不同分辨率上微调，不需要插值处理

ImageNet-1K 图像分类 Top-1 准确率 87.4%，并在语义分割、视频动作识别任务上表现具有竞争力。代码：github.com/Cominder/Iwin-Transformer

同行评审状态：预印本。

10. HLFormer：用双曲空间让视频检索更懂层次结构

论文：HLFormer: Enhancing Partially Relevant Video Retrieval with Hyperbolic Learning 10

「部分相关视频检索」（PRVR）是指：给一段文字描述（比如「一个人在公园里遛狗」），从一批没有剪辑过的长视频里找到包含相关内容的片段——但视频里只有部分内容跟描述有关。

传统方法在欧几里得空间里做，但欧式空间不擅长表达层次结构（比如「遛狗」是「户外活动」的下位概念，「户外活动」又属于「日常生活」）。

HLFormer 引入了双曲空间（Hyperbolic Space）——树状层次结构在双曲空间里能更自然地嵌入，维度效率更高。具体做法：

Lorentz 注意力块处理层次语义
欧式注意力块处理局部特征
两路特征用自适应模块动态融合
增加「偏序保持损失」，在双曲空间里强制「文本 < 视频」的语义层级约束

在主流 PRVR 基准上超过现有方法，代码已发布：github.com/lijun2005/ICCV25-HLFormer

同行评审状态：预印本（提交 ICCV 2025）。

11. 人脸年龄+性别同步识别：广告投放里的老问题

论文：Deep Learning-Based Age Estimation and Gender Classification for Targeted Advertisement 11

这篇偏工程向。在数字广告场景里，想根据摄像头前的人调整展示内容，需要快速判断对方的大概年龄段和性别。

传统方法把年龄估计和性别分类作为两个独立任务跑。这篇论文的思路是：年龄和性别在人脸特征里本来就有关联（面部骨骼结构、皮肤纹理等既决定性别也体现年龄），分开学是在浪费共享信息。

用一个自定义 CNN 同时完成两个任务，共享底层特征提取：

性别分类准确率 95%
年龄估计平均误差 5.77 岁

论文还分析了在不同年龄段上的误差分布，发现对儿童和青少年的年龄估计误差明显更大，提出需要针对性数据增强。

同行评审状态：预印本。

来源：HuggingFace Daily Papers，截取日期 2026-05-20

HuggingFace 今日 Trending 论文速览 | 2026-05-20

1. GSPO：训练 Qwen3 的那个 RL 算法，终于开源了

2. MUR：让 AI 思考得更聪明，而不是更久

3. Captain Cinema：给它一段剧情简介，它来拍短片

4. TTS-VAR：图像生成也能做「测试时扩展」了

5. EarthCrafter：AI 生成千平方公里的三维地球

6. TeleChat2/2.5/T1：国内自研 115B 大模型系列技术报告

7. GloVe 2024：10 年的词向量，终于更新了

8. SpelkeNet：让 AI 用婴儿的方式看世界

9. Iwin Transformer：不需要位置编码的视觉骨干网络

10. HLFormer：用双曲空间让视频检索更懂层次结构

11. 人脸年龄+性别同步识别：广告投放里的老问题

참고 출처