位置编码必要性
理解为什么Transformer需要显式位置编码
Attention(Q,K,V) = softmax(QK^T/√d)V — 位置无关!
自注意力是置换不变的: 打乱输入顺序, 输出只是对应打乱
点击模式按钮理解位置编码的必要性
没有位置编码, "我爱你"和"你爱我"无法区分
置换不变性
有无位置编码
位置编码方式
↻ 重置