El RL offline está dominado por el conservadurismo: seguro, pero limita la generalización. En nuestro nuevo artículo, preguntamos: ¿qué pasaría si lo dejamos de lado y confiamos en el principio bayesiano para una generalización adaptativa? Sorprendentemente, los rollouts a largo plazo, que generalmente se evitan en el RL basado en modelos, lo hacen funcionar. 🧵