resultados de rendimiento de nmoe en bs=256. La inferencia de nmoe se optimizará para la estabilidad numérica en los despliegues de RL (servimos EXACTAMENTE lo que entrenamos)