BERT双向注意力
观察BERT如何通过双向自注意力同时获取左右上下文
Attention(Q,K,V) = softmax(QK^T/√d_k)V
BERT: 每个token可attend到所有位置(含右侧)
点击模式按钮查看双向注意力
GPT只能看左侧, BERT可看左右两侧
双向注意力
BERT vs GPT
MLM预训练
↻ 重置