Offline-verkligheten domineras av konservatism – en säker men begränsande generalisering. I vår nya artikel frågar vi: vad händer om vi släpper det och förlitar oss på Bayesiansk princip för adaptiv generalisering? Överraskande nog gör långhorisontala utrullningar – som vanligtvis undviks i modellbaserad RL – att det fungerar. 🧵