Offline RL ist von Konservatismus geprägt – sicher, aber einschränkend für die Verallgemeinerung. In unserem neuen Papier fragen wir: Was wäre, wenn wir darauf verzichten und uns auf das Bayes'sche Prinzip für adaptive Verallgemeinerung verlassen? Überraschenderweise funktionieren langfristige Rollouts – die normalerweise im modellbasierten RL vermieden werden – damit. 🧵