nmoe 性能結果在 bs=256。nmoe 推理將針對 RL 迭代的數值穩定性進行優化(我們提供的正是我們訓練的內容)