NMOE PERF-resultater på BS=256. nmoe-inferensen vil bli optimalisert for numerisk stabilitet for RL-utrullinger (vi serverer NØYAKTIG det vi trener)