Offline RL wordt gedomineerd door conservatisme -- veilig, maar beperkt in generalisatie. In ons nieuwe paper vragen we: wat als we het laten vallen en vertrouwen op het Bayesiaanse principe voor adaptieve generalisatie? Verrassend genoeg maken lange horizon rollouts -- die meestal worden vermeden in model-gebaseerde RL -- het mogelijk. 🧵