欢迎光临
我们一直在努力

offline RL · PbRL | LiRE:构造 A>B>C 的 RLT 列表,得到更多 preference 数据

从 RLT 里推导出
\((\sigma_0, \sigma_1, p)\) 的 preference 数据,其中
\(p\in\{0,0.5,1\}\)

赞(0)
未经允许不得转载:小狮博客 » offline RL · PbRL | LiRE:构造 A>B>C 的 RLT 列表,得到更多 preference 数据
分享到: 更多 (0)