大型语言模型的输出可能是不真实的、有毒的,或者根本对用户没有帮助。问题的根源在于,LLM 的训练目标——在庞大的语料库上“预测下一个词”——与我们希望它拥有的能力——“有用、诚实、无害地遵循用户指令”——之间存在着天然的偏差。这种现象,我们称之为“对齐(Alignment)”问题。
InstructGPT 论文略读:三步走,让大模型真正听懂人话
未经允许不得转载:小狮博客 » InstructGPT 论文略读:三步走,让大模型真正听懂人话
大型语言模型的输出可能是不真实的、有毒的,或者根本对用户没有帮助。问题的根源在于,LLM 的训练目标——在庞大的语料库上“预测下一个词”——与我们希望它拥有的能力——“有用、诚实、无害地遵循用户指令”——之间存在着天然的偏差。这种现象,我们称之为“对齐(Alignment)”问题。