O RL offline é dominado pelo conservadorismo — uma generalização segura, mas limitante. No nosso novo artigo, perguntamos: e se abandonarmos e confiarmos no princípio bayesiano para generalização adaptativa? Surpreendentemente, implementações de longo prazo — geralmente evitadas em RL baseado em modelos — fazem isso funcionar. 🧵