Dacă aș începe un doctorat astăzi, probabil aș vrea să lucrez la legile de scalare pentru RL în regimul model mic dintre non-LLM și LLM. Se simte subexplorat
oamenii au acceptat această înțelepciune folclorică că LLM RL începe să funcționeze doar odată ce chestia uriașă de internet pre-antrenată este suficient de mare. De ce se întâmplă asta? Cum putem prezice + îmbunătăți eficiența eșantionului de învățare în funcție de parametri, complexitatea sarcinilor și cantitatea de pre-antrenament?
@yacineMTB ar trebui să fie dacă o faci corect, dar cât de mult Poți antrena o grămadă de modele pe diferite jocuri pentru convergență, apoi le distilezi pe toate într-un singur model și poți îmbunătăți atât eficiența eșantionului, cât și generalizarea?
@yacineMTB avem modele mari de chungus totul și modele de șah care pot doar juca și nu prea multe între ele
39,17K