Adam vs AdamW——自适应学习率与解耦权重衰减

展示两个优化器在多峰损失面上的行为差异