分布式训练——并行策略可视化

交互式体验数据并行、模型并行与流水线并行

L = (1/N) Σ loss(f(x_i; theta), y_i)

模式: 数据并行 | GPU数: 4

每个GPU持有完整模型副本，处理不同数据子集

AllReduce同步梯度 → 参数一致