Comentario interesante del apéndice del documento de DeepSeek V3: tuvieron dificultades con la cuantización de las activaciones. «Estos [valores atípicos correlacionados con tokens] no pueden ser gestionados de manera efectiva por un enfoque de cuantización por bloques». ¿Puede su estrategia UE8M0 ayudar aquí en absoluto?
2,75K