自注意力QKV计算
观察Query、Key、Value如何从输入线性变换得到
Q=XW^Q, K=XW^K, V=XW^V
W^Q,W^K,W^V: d_model×d_k 的可学习参数矩阵
点击模式按钮查看QKV计算
Q=查询(我在找什么), K=键(我有什么), V=值(我的内容)
QKV生成
QKV角色
注意力计算流程
↻ 重置