kết quả perf nmoe tại bs=256. suy diễn nmoe sẽ được tối ưu hóa cho độ ổn định số học cho các lần thực hiện RL (chúng tôi phục vụ ĐÚNG NHƯ những gì chúng tôi đã đào tạo)