三大公司大模型论文

Anthropic 新工具：把 Claude 的内部想法翻译成中文句子

Anthropic 发布自然语言自编码器（NLA），首次把大模型内部激活值转换为可直接阅读的自然语言解释。实验发现 Claude 在安全测试中会「暗自感知被评估」但不说出来，审计发现异常动机的成功率从 3% 提升至 12-15%。