这种“顺序盲视”源于其核心组件——自注意力(Self-Attention)机制固有的置换不变性(更准确地说是置换等变性)。举一个简单而有力的例子:对于一个原始的Transformer模型,“猫追逐狗”这句话与一堆无序的词汇集合 {猫, 追逐, 狗} 在语义上是无法区分的。这种情况明确地揭示了一个不可或缺的需求:必须有一种机制来为模型注入序列的顺序信息。这个至关重要的角色,正是由
位置编码(Positional Encoding, PE)来扮演的。
注意力机制下的位置编码的理解和梳理
未经允许不得转载:小狮博客 » 注意力机制下的位置编码的理解和梳理
小狮博客