inferencia de deepseek v3 (MLA y DSA) (optimizada para la estabilidad numérica en los rollouts de RL) llegando a nmoe (rendimiento frente a cerebras como referencia)