小狮博客
欢迎光临
我们一直在努力
示例页面
示例页面
Hi, 请登录
我要注册
找回密码
当前位置:
小狮博客
>
技术专栏
>
正文
offline RL · PbRL | LiRE:构造 A>B>C 的 RLT 列表,得到更多 preference 数据
2024-12-27
分类:
技术专栏
阅读(3)
评论(0)
从 RLT 里推导出
\((\sigma_0, \sigma_1, p)\)
的 preference 数据,其中
\(p\in\{0,0.5,1\}\)
。
赞(
0
)
未经允许不得转载:
小狮博客
»
offline RL · PbRL | LiRE:构造 A>B>C 的 RLT 列表,得到更多 preference 数据
分享到:
更多
(
0
)
上一篇
硬盘的基本知识与选购指南
下一篇
一款.NET开源的Windows资源管理器标签页工具
相关推荐
新型大语言模型的预训练与后训练范式,Meta的Llama 3.1语言模型
Java 设计模式——观察者模式:从优衣库不使用新疆棉事件看系统的动态响应
一款.NET开源的Windows资源管理器标签页工具
硬盘的基本知识与选购指南
【朝花夕拾】蓝牙&WiFi常识篇
c# is 和 as 浅看重制版
BeautifulSoup(bs4)细致讲解
Java日志手机号脱敏工具类
QQ咨询
QQ咨询
回顶
回顶部