Jeg elsker Engrams kontekstbevisste portdesign. Symmetrien er vakker.
Det er en blanding av embeddings hvor rutere også er embeddings.
Vanlig MoE er «en blanding av FFN-er hvor rutere også er FFN-er», men KeyFFN-er er kun bias.
k_i=KeyFFN_i(x)
v_i=ValFFN_i(x)
o=sum_i σ(q·k_i)v_i
😅
Hvem sa at "bruk av k3 i tap = bruk av sti-vis grad"???
den riktige måten å bruke k3 i tap på er å bruke FULL grad.
og GRPO brukte k3 uten IS-korreksjon (= stivis grad), noe som er feil. Men det er ikke K3 sin feil!!
I løpet av de siste 6 månedene har NanoGPT Speedrun til 3,28 tap på FineWeb falt med 33 % til 2 minutter. Nylig ble en delmengde av disse endringene bulk-kopiert og limt inn til den større 2,92-tapsbanen. Overraskende nok slo den uinnstilte yolo-runen 2,92 tapsrekorden med 25 %.