NMOEのパーフ結果はbs=256です。NMOE推論は強化学習の展開に向けた数値的安定性のために最適化されます(私たちは訓練したものを正確にサーバーします)