多头注意力计算效率
分析多头注意力的计算复杂度与并行效率
复杂度: O(n²·d_model) — 与头数h无关!
多头≈单头计算量, 但表达力更强
点击模式按钮查看效率分析
关键: h·d_k = d_model, 总参数量不变
复杂度对比
并行加速
头数选择
↻ 重置