缩放点积注意力

理解为什么需要除以√d_k以及缩放的效果

Attention(Q,K,V) = softmax(QK^T / √d_k) V
除以√d_k防止点积过大导致softmax梯度消失
点击模式按钮查看缩放效果
d_k越大, 点积方差越大, softmax越尖锐