Interessante Bemerkung aus dem Anhang des DeepSeek V3 Papiers: Sie hatten Schwierigkeiten mit der Quantisierung für Aktivierungen. «Diese [token-korrelierte] Ausreißer können nicht effektiv durch einen blockweisen Quantisierungsansatz verwaltet werden». Kann ihre UE8M0-Strategie hier überhaupt helfen?
2,59K