DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

se oggi iniziassi un dottorato probabilmente vorrei lavorare sulle leggi di scalabilità per RL nel regime dei modelli piccoli tra non-LLM e LLM. sembra poco esplorato

le persone hanno in qualche modo accettato questa saggezza popolare che il RL degli LLM inizia a funzionare solo quando il grande modello preaddestrato su internet è abbastanza grande. perché è così? come possiamo prevedere e migliorare l'efficienza del campionamento dell'apprendimento in funzione dei parametri, della complessità del compito e della quantità di preaddestramento?

@yacineMTB come ovvio dovrebbe, se lo fai bene, ma quanto puoi addestrare un gruppo di modelli su diversi giochi fino alla convergenza, per poi distillarli tutti in un unico modello e migliorare sia l'efficienza del campionamento che la generalizzazione?

@yacineMTB abbiamo modelli big chungus e modelli che possono solo giocare a scacchi e non molto in mezzo

39,17K

Principali

Ranking

Preferiti