gdybym dzisiaj zaczynał doktorat, prawdopodobnie chciałbym pracować nad prawami skalowania dla RL w małym modelu między non-LLM a LLM. wydaje się to niedostatecznie zbadane
ludzie w pewnym sensie zaakceptowali tę ludową mądrość, że LLM RL zaczyna działać dopiero wtedy, gdy ogromny model wstępnie wytrenowany w internecie jest wystarczająco duży. dlaczego tak jest? jak możemy przewidzieć i poprawić efektywność próbkowania uczenia w zależności od parametrów, złożoności zadania i ilości wstępnego treningu?
@yacineMTB jak oczywiście powinno, jeśli zrobisz to dobrze, ale jak dużo możesz trenować grupę modeli na różnych grach do zbieżności, a następnie destylować je wszystkie do jednego modelu i poprawić zarówno efektywność próbkowania, jak i uogólnienie?
@yacineMTB mamy modele big chungus, modele do grania tylko w szachy i niewiele pomiędzy.
32,38K