O RL offline é dominado pelo conservadorismo -- seguro, mas limitando a generalização. No nosso novo artigo, perguntamos: e se abandonássemos isso e confiássemos no princípio bayesiano para uma generalização adaptativa? Surpreendentemente, rollouts de longo prazo -- geralmente evitados no RL baseado em modelo -- fazem isso funcionar. 🧵