注意力机制——Query-Key-Value交互演示

可视化注意力权重矩阵的生成和含义

Attention(Q,K,V) = softmax(QKᵀ/√dₖ)·V
当前模式: 自注意力 | 序列长度: 4
每个词关注序列中所有其他词
连线粗细=注意力权重,越粗表示越关注