多头注意力

观察多个注意力头如何并行关注不同的语义子空间

MultiHead(Q,K,V) = Concat(head_1,...,head_h)W^O
head_i = Attention(QW_i^Q, KW_i^K, VW_i^V) | h=8头
点击模式按钮查看多头注意力
每个头学习不同的注意力模式: 语法/语义/位置