resultados de desempenho nmoe a bs=256. A inferência nmoe será otimizada para estabilidade numérica para rollouts de RL (servimos EXATAMENTE o que treinamos)