预训练与微调——迁移学习的力量

可视化大规模预训练如何为下游任务提供通用知识

θ_finetune = θ_pretrain + Δθ_task

当前模式: 预训练阶段 | 数据量: 300B tokens

预训练：在海量文本上学习通用语言表示

微调只需少量数据即可适应新任务