sprial - 搜索 News

资讯

3 天

SPIRAL：零和游戏自对弈助力大模型推理，解锁免费推理训练新范式

为了实现SPIRAL，研究团队开发了一个真正的在线多智能体、多回合强化学习系统，用于微调大语言模型。该系统采用分布式actor-learner架构，能够跨多个双人零和语言游戏进行全参数更新的在线自对弈。此外，研究中一个关键发现是，没有适当的方差减少技 ...

2 天

SPIRAL：零和游戏自对弈成为语言模型推理训练的「免费午餐」

近年来，OpenAI o1 和 DeepSeek-R1 等模型的成功证明了强化学习能够显著提升语言模型的推理能力。通过基于结果的奖励机制，强化学习使模型能够发展出可泛化的推理策略，在复杂问题上取得了监督微调难以企及的进展。

SPIRAL：零和游戏自对弈成为语言模型推理训练的「 ...

SPIRAL 的工作不仅仅是一个技术突破，更代表了对智能本质的新理解。它表明，复杂的推理能力可能不需要通过精心设计的课程来教授，而是可以 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果