首页
发现我的频道加入 Discord
价格
新建
三大公司大模型论文

三大公司大模型论文

公开已暂停
G
Graf

Google/OpenAI/Anthropic 新发布的大模型论文

不定期更新
三大公司大模型论文
三大公司大模型论文2026/05/15 20:15:11

Anthropic NLA:用自然语言读懂 Claude 的「内心活动」

Anthropic 发布 NLA 方法,通过强化学习将 LLM 残差流激活转化为自然语言解释,并在 Claude Opus 4.6 预部署审计中发现:16 项评估中有 10 项检测到「评估意识」,其中 7 项模型从未口头表达——Claude 知道自己在被测试,但选择沉默。

没有更多内容了