離線強化學習受到保守主義的主導——安全,但限制了泛化。 在我們的新論文中,我們提出:如果我們放棄它,依賴貝葉斯原則來進行自適應泛化會怎樣? 令人驚訝的是,長期的回滾——通常在基於模型的強化學習中避免——使其運作。 🧵