Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
om jag skulle börja doktorera idag skulle jag förmodligen vilja arbeta med skalningslagar för RL i den lilla modellregimen mellan icke-LLM:er och LLM:er. känns underutforskad
folk har liksom accepterat denna folklore visdom att LLM RL bara börjar fungera när den enorma internet förtränade saken är tillräckligt stor. Varför är det så? Hur kan vi förutsäga + förbättra urvalseffektiviteten av inlärning som en funktion av parametrar, uppgiftens komplexitet och mängden förträning?
@yacineMTB som det självklart ska om man gör det rätt, men hur mycket
Kan du träna ett gäng modeller på olika spel för att skapa konvergens, sedan destillera dem alla till en enda modell och förbättra både urvalseffektivitet och generalisering?
@yacineMTB vi har stora chungus allt-modeller och kan-bara-spela-schack-modeller och inte mycket däremellan
32,38K
Topp
Rankning
Favoriter