Jos aloittaisin tohtorintutkinnon tänään, haluaisin luultavasti työskennellä RL:n skaalauslakien parissa pienessä mallijärjestelmässä ei-LLM:ien ja LLM:ien välillä. tuntuu alitutkitulta
ihmiset ovat tavallaan hyväksyneet tämän kansanperinteen viisauden, että LLM RL alkaa toimia vasta, kun valtava internetin esikoulutettu asia on tarpeeksi suuri. Miksi näin? Kuinka voimme ennustaa + parantaa oppimisen otostehokkuutta parametrien, tehtävien monimutkaisuuden ja esikoulutuksen määrän funktiona?
@yacineMTB kuten tietysti pitäisi, jos teet sen oikein, mutta kuinka paljon Voitko kouluttaa joukon malleja eri peleissä konvergenssiin, sitten tislata ne kaikki yhdeksi malliksi ja parantaa sekä otosten tehokkuutta että yleistystä?
@yacineMTB meillä on isoja chungus everything -malleja ja can-only-play-chess -malleja, eikä paljon siltä väliltä
23,02K