DApp Store | Hub Web3 pentru evenimente și jocuri

Subiecte populare

Dacă aș începe un doctorat astăzi, probabil aș vrea să lucrez la legile de scalare pentru RL în regimul model mic dintre non-LLM și LLM. Se simte subexplorat

oamenii au acceptat această înțelepciune folclorică că LLM RL începe să funcționeze doar odată ce chestia uriașă de internet pre-antrenată este suficient de mare. De ce se întâmplă asta? Cum putem prezice + îmbunătăți eficiența eșantionului de învățare în funcție de parametri, complexitatea sarcinilor și cantitatea de pre-antrenament?

@yacineMTB ar trebui să fie dacă o faci corect, dar cât de mult Poți antrena o grămadă de modele pe diferite jocuri pentru convergență, apoi le distilezi pe toate într-un singur model și poți îmbunătăți atât eficiența eșantionului, cât și generalizarea?

@yacineMTB avem modele mari de chungus totul și modele de șah care pot doar juca și nu prea multe între ele

39,17K

Limită superioară

Clasament

Favorite