Comentario interesante del apéndice del artículo de DeepSeek V3: lucharon con la cuantificación de las activaciones. «Estos valores atípicos [correlacionados con tokens] no pueden gestionarse eficazmente mediante un enfoque de cuantificación por bloques». ¿Puede su estrategia UE8M0 ayudar en este caso?
2.59K