多头注意力
观察多个注意力头如何并行关注不同的语义子空间
MultiHead(Q,K,V) = Concat(head_1,...,head_h)W^O
head_i = Attention(QW_i^Q, KW_i^K, VW_i^V) | h=8头
点击模式按钮查看多头注意力
每个头学习不同的注意力模式: 语法/语义/位置
多头并行
注意力模式
拼接与投影
↻ 重置