模仿学习——交互式演示

观察→模仿→自主:机器人如何从人类演示中学习

L = (1/N) Σ ‖π_θ(s_i) - a_i*‖²
模式: 人类演示 | 演示数: 5
人类专家演示轨迹,机器人学习策略
行为克隆: 学习 s → a 映射