Offline-RL:ää hallitsee konservatismi – turvallista, mutta rajoittavaa yleistystä. Uudessa artikkelissamme kysymme: entä jos hylkäämme sen ja luotamme bayesilaiseen periaatteeseen adaptiivisen yleistyksen toteuttamisessa? Yllättävää kyllä, pitkän aikavälin käyttöönotot – joita yleensä vältetään mallipohjaisessa RL:ssä – saavat sen toimimaan. 🧵