注意力机制——Query-Key-Value交互演示
可视化注意力权重矩阵的生成和含义
Attention(Q,K,V) = softmax(QKᵀ/√dₖ)·V
当前模式: 自注意力 | 序列长度: 4
每个词关注序列中所有其他词
连线粗细=注意力权重,越粗表示越关注
自注意力
交叉注意力
多头注意力
↻ 重置