Als ik vandaag een PhD zou beginnen, zou ik waarschijnlijk willen werken aan schaalwetten voor RL in het kleine modelregime tussen niet-LLM's en LLM's. Voelt onderbelicht.
mensen hebben een soort van deze folklore wijsheid geaccepteerd dat LLM RL alleen begint te werken zodra het enorme internet voorgetrainde ding groot genoeg is. waarom is dat? hoe kunnen we de sample-efficiëntie van leren voorspellen en verbeteren als een functie van parameters, taakcomplexiteit en de hoeveelheid voortraining?
@yacineMTB zoals het duidelijk zou moeten zijn als je het goed doet, maar hoeveel kun je een stel modellen op verschillende spellen trainen tot convergentie, en ze dan allemaal distilleren tot één enkel model en zowel de monster-efficiëntie als de generalisatie verbeteren?
@yacineMTB we hebben grote chungus alles modellen en kan-alleen-schaak modellen en niet veel daar tussenin
23,02K