Warmup效果——训练稳定性对比
有无预热下的损失和梯度演化对比
损失曲线
梯度范数
↻ 重置