Интересное замечание из приложения к статье DeepSeek V3: они столкнулись с проблемами квантования для активаций. «Эти [коррелированные с токенами] выбросы не могут быть эффективно обработаны с помощью блочного подхода к квантованию». Может ли их стратегия UE8M0 помочь в этом?
2,59K