解密prompt系列63. Agent训练方案:RStar2 & Early Experience etc

2025-12-09 分类：技术专栏阅读(122) 评论(0)

我们将看到一条演进路线：从
优化单一动作（ReTool），到
学习长程规划（RAGEN），再到
提升思考质量本身（RStar2），最后到一种
不依赖外部奖励的、更底层的经验内化方式（Early Experience）。