位置编码必要性

理解为什么Transformer需要显式位置编码

Attention(Q,K,V) = softmax(QK^T/√d)V — 位置无关!
自注意力是置换不变的: 打乱输入顺序, 输出只是对应打乱
点击模式按钮理解位置编码的必要性
没有位置编码, "我爱你"和"你爱我"无法区分