新的 NanoGPT 速度记录为 112.7 (-1.0s),采用 bfloat16 权重,优化器中额外 16 位,并进行交错通信。灵感来自 @YouJiacheng 和 @ChrisJMcCormick。此外,Adam 优化器的步长是 Muon 的一半,lm_head 的 beta1=0.5。