DeepSeek R1 简明指南：架构、训练、本地部署及硬件要求

2025-02-27 分类：技术专栏阅读(279) 评论(0)

DeepSeek 通过强化学习（RL）提出了一种创新的改进大规模语言模型（LLM）推理能力的方法，这在他们最近关于 DeepSeek-R1 的论文中有详细介绍。这项研究代表了在不依赖于大量有监督微调的情况下，通过纯强化学习提升 LLM 解决复杂问题能力的重大进展。