kdybych dnes začínal doktorát, pravděpodobně bych chtěl pracovat na škálovacích zákonech pro RL v režimu malého modelu mezi non-LLM a LLM.
lidé tak nějak přijali tuto folklórní moudrost, že LLM RL začíná fungovat pouze tehdy, když je obrovská internetová předtrénovaná věc dostatečně velká. Proč tomu tak je? Jak můžeme předpovědět + zlepšit efektivitu učení na vzorku jako funkci parametrů, složitosti úkolu a množství předtrénování?
@yacineMTB to samozřejmě mělo, pokud to uděláte správně, ale jak moc Můžete trénovat spoustu modelů na různých hrách, aby konvergovaly, a pak je všechny vydestilovat do jednoho modelu a zlepšit efektivitu vzorkování i zobecnění?
@yacineMTB máme velké modely chungus everything a modely pouze šachů, které lze hrát a nic mezi tím
23,01K