Noul NanoGPT Speedrun WR la 112.7 (-1.0s), cu greutăți în bfloat16 cu 16 biți suplimentari în optimizer și comunicații intercalate. Inspirație din @YouJiacheng și @ChrisJMcCormick. De asemenea, Adam opt, care face pași de jumătate din cele mai frecvente decât Muon, are lm_head beta1=0,5.