分布式训练——并行策略可视化
交互式体验数据并行、模型并行与流水线并行
L = (1/N) Σ loss(f(x_i; theta), y_i)
模式: 数据并行 | GPU数: 4
每个GPU持有完整模型副本,处理不同数据子集
AllReduce同步梯度 → 参数一致
数据并行
模型并行
流水线并行
↻ 重置