模仿学习——交互式演示

观察→模仿→自主：机器人如何从人类演示中学习

L = (1/N) Σ ‖π_θ(s_i) - a_i*‖²

模式: 人类演示 | 演示数: 5

人类专家演示轨迹，机器人学习策略

行为克隆: 学习 s → a 映射