Nieuwe NanoGPT Speedrun WR op 112,7 (-1,0s), met gewichten in bfloat16 met extra 16 bits in de optimizer en interleaved comms. Inspiratie van @YouJiacheng en @ChrisJMcCormick. Ook de Adam-opt, die half zo vaak stappen als Muon, heeft lm_head beta1=0,5.