Osservazione interessante dall'appendice del documento di DeepSeek V3: hanno avuto difficoltà con la quantizzazione per le attivazioni. «Questi outlier [correlati ai token] non possono essere gestiti efficacemente da un approccio di quantizzazione a blocchi». Può la loro strategia UE8M0 aiutare in questo caso?
2,58K