Ik hou van het contextbewuste gating ontwerp van Engram. De symmetrie is prachtig.
Het is een mengsel van embeddings waarbij routers ook embeddings zijn.
Reguliere MoE is "mengsel van FFN's waarbij routers ook FFN's zijn" maar KeyFFN's zijn alleen bias.
k_i=KeyFFN_i(x)
v_i=ValFFN_i(x)
o=sum_i σ(q·k_i)v_i
😅
wie zei dat "k3 gebruiken in verlies = pad-gewijze grad"???
de juiste manier om k3 in verlies te gebruiken is om de VOLLEDIGE grad te gebruiken.
og GRPO gebruikte k3 zonder IS-correctie (= pad-gewijze grad), wat verkeerd is. maar het is niet de schuld van k3!!!
In de afgelopen 6 maanden is de NanoGPT Speedrun naar 3.28 verlies op FineWeb met 33% gedaald naar 2 minuten. Onlangs zijn een subset van deze wijzigingen in bulk gekopieerd en geplakt naar het grotere 2.92 verliestraject. Verrassend genoeg heeft de niet-afgestemde yolo-run het 2.92 verliesrecord met 25% gebroken.