risultati perf di nmoe a bs=256. L'inferenza nmoe sarà ottimizzata per la stabilità numerica per i roll out RL (forniamo ESATTAMENTE ciò che alleniamo)