自注意力机制动画演示

看每个词如何「关注」句子中的其他词

Attention(Q,K,V) = softmax(QK^T / √d) V
模式: 注意力权重
等待演示...
切换模式查看不同视角