thbcm的文章

让 LLM 来评判 | 奖励模型相关内容

2025-02-18thbcm阅读(199)赞(0)

最常见的奖励模型类型是 Bradley-Terry 模型，它的输出是一个分值，遵循以下公式：

2025-02-18thbcm阅读(192)赞(0)

2025-02-18thbcm阅读(206)赞(0)

2025-02-18thbcm阅读(251)赞(0)

不同语言的词汇之间往往也是可以互相翻译的，这就是为什么我们会有不同语言之间的互译词典。通过词典，可以把不同的单词对换过来，但不同语言下同一个句子不同词汇的出现顺序是有要求的。比如一个很经典的笑话：“How old are you”如果按照词...

2025-02-18thbcm阅读(196)赞(0)

整体上DeepSeek的实验方案更加纯粹，所以我们先介绍Deepseek R1的技术方案，再用kimi来补充一些细节。

2025-02-18thbcm阅读(219)赞(0)

为了解决该问题想到可以通过标签路由的方式避免该问题，实现前端联调和开发自测互不干扰。

2025-02-18thbcm阅读(208)赞(0)

LeetCode第234题”回文链表”要求：给你一个单链表的头节点 head，请判断该链表是否为回文链表。

2025-02-18thbcm阅读(219)赞(0)

如果你想使用 npcap 进行实战抓包，以下是具体步骤：

2025-02-18thbcm阅读(228)赞(0)

以下内容是由红帽官方博客整理而成，使用 Ansible 在Linux平台上自动化部署SQL Server AlwaysOn集群

2025-02-18thbcm阅读(206)赞(0)