Uwielbiam kontekstowo-świadome projektowanie bramek Engram. Jego symetria jest piękna.
To mieszanka osadzeń, gdzie routery są również osadzeniami.
Regularne MoE to "mieszanka FFN, gdzie routery są również FFN", ale KeyFFN to tylko bias.
k_i=KeyFFN_i(x)
v_i=ValFFN_i(x)
o=sum_i σ(q·k_i)v_i
😅
Kto powiedział, że "używanie k3 w stracie = używanie gradientu ścieżkowego"???
Poprawny sposób użycia k3 w stracie to użycie pełnego gradientu.
GRPO użyło k3 bez korekcji IS (= gradient ścieżkowy), co jest błędne. Ale to nie wina k3!!!
W ciągu ostatnich 6 miesięcy NanoGPT Speedrun do 3.28 straty na FineWeb spadł o 33% do 2 minut. Niedawno część tych zmian została masowo skopiowana i wklejona do większej skali toru z stratą 2.92. Zaskakująco, nieprzetworzony bieg yolo pobił rekord straty 2.92 o 25%.