Warmup效果——训练稳定性对比

有无预热下的损失和梯度演化对比