Interesująca uwaga z aneksu pracy DeepSeek V3: mieli trudności z kwantyzacją aktywacji. «Te [skorelowane z tokenami] wartości odstające nie mogą być skutecznie zarządzane przez podejście kwantyzacji blokowej». Czy ich strategia UE8M0 może w tym pomóc?
2,59K