缩放点积注意力

理解为什么需要除以√d_k以及缩放的效果

Attention(Q,K,V) = softmax(QK^T / √d_k) V

除以√d_k防止点积过大导致softmax梯度消失

点击模式按钮查看缩放效果

d_k越大, 点积方差越大, softmax越尖锐