Interessant bemerkning fra vedlegget til DeepSeek V3-papiret: de slet med kvantisering for aktiveringer. «Disse [token-korrelerte] uteliggerne kan ikke håndteres effektivt med en blokkvis kvantiseringstilnærming». Kan deres UE8M0-strategi hjelpe her i det hele tatt?
2,59K