小白也能看懂的RLHF:基础篇

人类反馈强化学习(Reinforcement Learning from Human Feedback,RLHF)是释放大语言模型(LLM)巨大潜力的关键,OpenAI在2020年发布的GPT-3模型无疑是最好的证明。时隔两年,OpenAI再次发布经过RLHF训练后的LLM——ChatGPT,一夜爆火、吸引大量用户关注,并树立了对话式人工智能新标杆的。

赞(0)
未经允许不得转载:小狮博客 » 小白也能看懂的RLHF:基础篇
分享到: 更多 (0)

联系我们