大模型涌现能力——规模与能力的非线性关系

可视化不同能力随模型规模的变化曲线

L(N,D) = (Nc/N)^αN + (Dc/D)^αD + L∞
当前模式: 能力曲线 | 横轴: 参数量(对数)
涌现:量变引起质变,规模决定能力
算术~10亿参数涌现,推理~100亿参数涌现