欢迎光临
我们一直在努力

RLHF各种训练算法科普

包括:PPO、DRO、DPO、β-DPO、sDPO、RSO、IPO、GPO、KTO、ORPO、SimPO、R-DPO、RLOO,以及GRPO。

赞(0)
未经允许不得转载:小狮博客 » RLHF各种训练算法科普
分享到: 更多 (0)