Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
si je commençais un doctorat aujourd'hui, je voudrais probablement travailler sur les lois d'échelle pour l'apprentissage par renforcement dans le régime des petits modèles entre les non-LLMs et les LLMs. Cela semble sous-exploré.
les gens ont en quelque sorte accepté cette sagesse populaire selon laquelle le RL des LLM ne commence à fonctionner que lorsque le gros modèle préentraîné sur Internet est suffisamment grand. pourquoi est-ce le cas ? comment pouvons-nous prédire et améliorer l'efficacité d'échantillonnage de l'apprentissage en fonction des paramètres, de la complexité de la tâche et de la quantité de préentraînement ?
@yacineMTB comme évidemment cela devrait fonctionner si vous le faites correctement, mais combien
pouvez-vous entraîner un ensemble de modèles sur différents jeux jusqu'à convergence, puis les distiller tous en un seul modèle et améliorer à la fois l'efficacité d'échantillonnage et la généralisation ?
@yacineMTB nous avons de grands modèles chungus, des modèles qui ne peuvent jouer qu'aux échecs et pas grand-chose entre les deux
32,38K
Meilleurs
Classement
Favoris