si je commençais un doctorat aujourd'hui, je voudrais probablement travailler sur les lois d'échelle pour l'apprentissage par renforcement dans le régime des petits modèles entre les non-LLMs et les LLMs. Cela semble sous-exploré.
les gens ont en quelque sorte accepté cette sagesse populaire selon laquelle le RL des LLM ne commence à fonctionner que lorsque le gros modèle préentraîné sur Internet est suffisamment grand. pourquoi est-ce le cas ? comment pouvons-nous prédire et améliorer l'efficacité d'échantillonnage de l'apprentissage en fonction des paramètres, de la complexité de la tâche et de la quantité de préentraînement ?
@yacineMTB comme évidemment cela devrait fonctionner si vous le faites correctement, mais combien pouvez-vous entraîner un ensemble de modèles sur différents jeux jusqu'à convergence, puis les distiller tous en un seul modèle et améliorer à la fois l'efficacité d'échantillonnage et la généralisation ?
@yacineMTB nous avons de grands modèles chungus, des modèles qui ne peuvent jouer qu'aux échecs et pas grand-chose entre les deux
32,38K