Offline RL je ovládán konzervatismem – bezpečným, ale omezujícím zobecňováním. V našem novém článku se ptáme: co kdybychom to opustili a spoléhali se na bayesovský princip pro adaptivní zobecnění? Překvapivě dlouhodobé zavádění – obvykle se v modelovém RL vyhýbá – to zvládá. 🧵