se oggi iniziassi un dottorato probabilmente vorrei lavorare sulle leggi di scalabilità per RL nel regime dei modelli piccoli tra non-LLM e LLM. sembra poco esplorato
le persone hanno in qualche modo accettato questa saggezza popolare che il RL degli LLM inizia a funzionare solo quando il grande modello preaddestrato su internet è abbastanza grande. perché è così? come possiamo prevedere e migliorare l'efficienza del campionamento dell'apprendimento in funzione dei parametri, della complessità del compito e della quantità di preaddestramento?
@yacineMTB come ovvio dovrebbe, se lo fai bene, ma quanto puoi addestrare un gruppo di modelli su diversi giochi fino alla convergenza, per poi distillarli tutti in un unico modello e migliorare sia l'efficienza del campionamento che la generalizzazione?
@yacineMTB abbiamo modelli big chungus e modelli che possono solo giocare a scacchi e non molto in mezzo
39,17K