当前位置：小狮博客 > 技术专栏 > 正文

PbRL | Christiano 2017 年的开山之作，以及 Preference PPO / PrefPPO

2025-01-01 分类：技术专栏阅读(87) 评论(0)

Christiano et al. (2017) 这篇文章的题目是 Deep reinforcement learning from human preferences，发表在 NeurIPS 2017；arxiv：
https://arxiv.org/abs/1706.03741 ，GitHub：
https://github.com/mrahtz/learning-from-human-preferences（用 TensorFlow 实现的）。

赞(0)

未经允许不得转载：小狮博客 » PbRL | Christiano 2017 年的开山之作，以及 Preference PPO / PrefPPO

相关推荐

回顶
回顶部