Wenn ich heute mit einem Doktorat anfangen würde, würde ich wahrscheinlich an Skalierungsgesetzen für RL im kleinen Modellregime zwischen Nicht-LLMs und LLMs arbeiten wollen. Fühlt sich untererforscht an.
Die Leute haben irgendwie diese folkloristische Weisheit akzeptiert, dass LLM RL nur dann funktioniert, wenn das riesige, im Internet vortrainierte Modell groß genug ist. Warum ist das so? Wie können wir die Stichproben-Effizienz des Lernens als Funktion von Parametern, Aufgabenkomplexität und Menge des Vortrainings vorhersagen und verbessern?
@yacineMTB wie offensichtlich sollte es, wenn du es richtig machst, aber wie viel kannst du eine Menge Modelle auf verschiedenen Spielen bis zur Konvergenz trainieren, sie dann alle in ein einzelnes Modell destillieren und sowohl die Stichproben-Effizienz als auch die Generalisierung verbessern?
@yacineMTB wir haben große Chungus-Modelle und Modelle, die nur Schach spielen können, und nicht viel dazwischen.
23,01K