模仿学习——交互式演示
观察→模仿→自主:机器人如何从人类演示中学习
L = (1/N) Σ ‖π_θ(s_i) - a_i*‖²
模式: 人类演示 | 演示数: 5
人类专家演示轨迹,机器人学习策略
行为克隆: 学习 s → a 映射
人类演示
机器人学习
自主执行
↻ 重置