Nhận xét thú vị từ phụ lục của tài liệu DeepSeek V3: họ đã gặp khó khăn với việc lượng tử hóa cho các kích hoạt. «Những điểm ngoại lệ [có liên quan đến token] này không thể được quản lý hiệu quả bằng cách tiếp cận lượng tử hóa theo khối». Liệu chiến lược UE8M0 của họ có thể giúp gì ở đây không?
2,59K