Adam vs AdamW——自适应学习率与解耦权重衰减
展示两个优化器在多峰损失面上的行为差异
Adam
AdamW
学习率曲线
权重衰减效果
↻ 重置