Цікаве зауваження з додатку до статті DeepSeek V3: вони боролися з квантуванням для активацій. «Цими [токен-корельованими] викидами не можна ефективно управляти за допомогою підходу поблизового квантування». Чи може їхня стратегія UE8M0 тут взагалі допомогти?
2,59K