在所有问题中,首先要做的是理解
我们到底在解决什么问题。Transformer 中的自注意力机制用于理解序列中词元之间的关系。自注意力是一种
集合 操作,这意味着它是
排列等变的。如果我们不通过位置编码来丰富自注意力,许多重要的关系将
无法被确定。
在所有问题中,首先要做的是理解
我们到底在解决什么问题。Transformer 中的自注意力机制用于理解序列中词元之间的关系。自注意力是一种
集合 操作,这意味着它是
排列等变的。如果我们不通过位置编码来丰富自注意力,许多重要的关系将
无法被确定。