Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Dacă aș începe un doctorat astăzi, probabil aș vrea să lucrez la legile de scalare pentru RL în regimul model mic dintre non-LLM și LLM. Se simte subexplorat
oamenii au acceptat această înțelepciune folclorică că LLM RL începe să funcționeze doar odată ce chestia uriașă de internet pre-antrenată este suficient de mare. De ce se întâmplă asta? Cum putem prezice + îmbunătăți eficiența eșantionului de învățare în funcție de parametri, complexitatea sarcinilor și cantitatea de pre-antrenament?
@yacineMTB ar trebui să fie dacă o faci corect, dar cât de mult
Poți antrena o grămadă de modele pe diferite jocuri pentru convergență, apoi le distilezi pe toate într-un singur model și poți îmbunătăți atât eficiența eșantionului, cât și generalizarea?
@yacineMTB avem modele mari de chungus totul și modele de șah care pot doar juca și nu prea multe între ele
39,17K
Limită superioară
Clasament
Favorite