Interessante opmerking uit de bijlage van het DeepSeek V3-paper: ze hadden moeite met kwantisatie voor activaties. «Deze [token-gecorreleerde] uitschieters kunnen niet effectief worden beheerd met een blokgewijze kwantisatiebenadering». Kan hun UE8M0-strategie hier überhaupt helpen?
2,75K