预训练与微调——迁移学习的力量
可视化大规模预训练如何为下游任务提供通用知识
θ_finetune = θ_pretrain + Δθ_task
当前模式: 预训练阶段 | 数据量: 300B tokens
预训练:在海量文本上学习通用语言表示
微调只需少量数据即可适应新任务
预训练阶段
微调阶段
效果对比
↻ 重置