Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
se oggi iniziassi un dottorato probabilmente vorrei lavorare sulle leggi di scalabilità per RL nel regime dei modelli piccoli tra non-LLM e LLM. sembra poco esplorato
le persone hanno in qualche modo accettato questa saggezza popolare che il RL degli LLM inizia a funzionare solo quando il grande modello preaddestrato su internet è abbastanza grande. perché è così? come possiamo prevedere e migliorare l'efficienza del campionamento dell'apprendimento in funzione dei parametri, della complessità del compito e della quantità di preaddestramento?
@yacineMTB come ovvio dovrebbe, se lo fai bene, ma quanto
puoi addestrare un gruppo di modelli su diversi giochi fino alla convergenza, per poi distillarli tutti in un unico modello e migliorare sia l'efficienza del campionamento che la generalizzazione?
@yacineMTB abbiamo modelli big chungus e modelli che possono solo giocare a scacchi e non molto in mezzo
39,17K
Principali
Ranking
Preferiti