离线强化学习受制于保守性——安全,但限制了泛化能力。 在我们的新论文中,我们提出:如果我们放弃这种保守性,依赖贝叶斯原则进行自适应泛化会怎样? 令人惊讶的是,长时间的回滚——通常在基于模型的强化学习中被避免——使其得以实现。 🧵