当前位置：小狮博客 > 技术专栏 > 正文

解密prompt系列50. RL用于优化Agent行为路径的一些思路

2025-04-20 分类：技术专栏阅读(249) 评论(0)

而Deep Research的效果类似O1的长思考是非常长的行为链，OpenAI也直接表明Deep Research是使用和O1相同的RL训练得到的。但这里比O1更难的就是数据集的设计，训练过程动态行为数据的引入和RL目标的选择。