小狮博客
欢迎光临
我们一直在努力
示例页面
示例页面
Hi, 请登录
我要注册
找回密码
当前位置:
小狮博客
>
技术专栏
>
正文
offline RL · PbRL | LiRE:构造 A>B>C 的 RLT 列表,得到更多 preference 数据
2024-12-27
分类:
技术专栏
阅读(5)
评论(0)
从 RLT 里推导出
\((\sigma_0, \sigma_1, p)\)
的 preference 数据,其中
\(p\in\{0,0.5,1\}\)
。
赞(
0
)
未经允许不得转载:
小狮博客
»
offline RL · PbRL | LiRE:构造 A>B>C 的 RLT 列表,得到更多 preference 数据
分享到:
更多
(
0
)
上一篇
硬盘的基本知识与选购指南
下一篇
一款.NET开源的Windows资源管理器标签页工具
相关推荐
鸿蒙开发Hvigor插件动态生成代码
AI之旅-语义搜索:初识 vector embedding 与部署向量数据库 qdrant
一个.NET开源、快速、功能丰富的跨平台阅读服务器
Win11 自动色彩管理(ACM)
ThreeJs-03材质进阶
MySQL底层概述—1.InnoDB内存结构
一种小资源情况下RDS数据实时同步StarRocks方案
视觉多模态理解模型基础
QQ咨询
QQ咨询
回顶
回顶部