Offline RL jest zdominowane przez konserwatyzm -- bezpieczne, ale ograniczające generalizację. W naszym nowym artykule zadajemy pytanie: co jeśli zrezygnujemy z tego i polegamy na zasadzie Bayesa dla adaptacyjnej generalizacji? Zaskakująco, długohoryzontalne rollouty -- zazwyczaj unika się ich w RL opartym na modelach -- sprawiają, że to działa. 🧵