分类: AI

1 篇文章

thumbnail
DeepSeek-R1 的强化学习推理能力
2025年9月17日,由 DeepSeek 团队共同完成、梁文锋担任通讯作者的 DeepSeek-R1 推理模型研究论文,登上了国际权威期刊《自然(Nature)》第 Volume 645 Issue 8081 期的封面。Nature 封面标题是《Self-help:强化学习教会 AI 模型自我改进(Self-help: Reinforcement learning teaches AI model to improve itself)…