Komentar menarik dari lampiran makalah DeepSeek V3: mereka berjuang dengan kuantisasi untuk aktivasi. «Outlier [berkorelasi token] ini tidak dapat dikelola secara efektif dengan pendekatan kuantisasi blok-bijaksana». Bisakah strategi UE8M0 mereka membantu di sini sama sekali?
2,58K