BERT预训练任务

MLM和NSP两个预训练任务如何协同训练BERT

MLM: L_MLM = -log P(w_mask|context) | NSP: L_NSP = -log P(IsNext)
MLM遮盖15%token | NSP判断两句话是否相邻
点击模式按钮查看预训练任务
两个任务联合训练, 共享Transformer编码器