自注意力机制动画演示
看每个词如何「关注」句子中的其他词
Attention(Q,K,V) = softmax(QK^T / √d) V
模式: 注意力权重
等待演示...
切换模式查看不同视角
注意力权重
QKV计算
多头注意力
↻ 重置