Оффлайн RL доминирует консерватизмом — безопасно, но ограничивает обобщение. В нашей новой статье мы задаемся вопросом: что если мы откажемся от этого и полагаемся на байесовский принцип для адаптивного обобщения? Удивительно, но долгосрочные развертывания — обычно избегаемые в моделируемом RL — делают это возможным. 🧵