每个谜题仅提供少量示例,大模型需要基于这些示例,通过抽象推理,理解谜题的含义。(另一方面,示例较少也意味着训练数据集较少,即,ARC-AGI benchmark 不容易通过专门训练来刷点。)该 benchmark 测试模型识别 pattern 并将其快速应用于新情况的能力。
LLM | ARC-AGI:有趣的 benchmark
未经允许不得转载:小狮博客 » LLM | ARC-AGI:有趣的 benchmark
每个谜题仅提供少量示例,大模型需要基于这些示例,通过抽象推理,理解谜题的含义。(另一方面,示例较少也意味着训练数据集较少,即,ARC-AGI benchmark 不容易通过专门训练来刷点。)该 benchmark 测试模型识别 pattern 并将其快速应用于新情况的能力。