欢迎光临
我们一直在努力

让 LLM 来评判 | 奖励模型相关内容

最常见的奖励模型类型是 Bradley-Terry 模型,它的输出是一个分值,遵循以下公式:

赞(0)
未经允许不得转载:小狮博客 » 让 LLM 来评判 | 奖励模型相关内容
分享到: 更多 (0)