新的 NanoGPT 速度跑 WR 為 112.7 (-1.0s),特徵是使用 bfloat16 的權重,優化器中額外 16 位元,並進行交錯通訊。靈感來自 @YouJiacheng 和 @ChrisJMcCormick。此外,Adam 優化器的步伐頻率是 Muon 的一半,lm_head 的 beta1=0.5。