Zajímavá poznámka z přílohy článku DeepSeek V3: potýkali se s kvantizací aktivací. «Tyto [token-korelované] odlehlé hodnoty nelze efektivně spravovat pomocí blokového kvantizačního přístupu». Může zde vůbec pomoci jejich strategie UE8M0?
2,58K