RL offline didominasi oleh konservatisme – generalisasi yang aman, tetapi membatasi. Dalam makalah baru kami, kami bertanya: bagaimana jika kita membuangnya dan mengandalkan prinsip Bayesian untuk generalisasi adaptif? Anehnya, peluncuran jangka panjang -- biasanya dihindari dalam RL berbasis model -- membuatnya berhasil. 🧵