当前位置：小狮博客 > 技术专栏 > 正文

让 LLM 来评判 | 奖励模型相关内容

2025-02-18 分类：技术专栏阅读(233) 评论(0)

最常见的奖励模型类型是 Bradley-Terry 模型，它的输出是一个分值，遵循以下公式：

赞(0)

未经允许不得转载：小狮博客 » 让 LLM 来评判 | 奖励模型相关内容

相关推荐

回顶
回顶部