Adoro o design de gating consciente do contexto do Engram. A sua simetria é linda.
É uma mistura de embeddings onde os routers também são embeddings.
O MoE regular é "mistura de FFNs onde os routers também são FFNs", mas os KeyFFNs são apenas bias.
k_i=KeyFFN_i(x)
v_i=ValFFN_i(x)
o=soma_i σ(q·k_i)v_i
😅
quem disse que "usar k3 na perda = usar gradiente por caminho"???
a maneira correta de usar k3 na perda é usar o gradiente COMPLETO.
o GRPO usou k3 sem correção IS (= gradiente por caminho), o que está errado. mas não é culpa do k3!!!
Nos últimos 6 meses, a Speedrun do NanoGPT para uma perda de 3.28 no FineWeb caiu 33% para 2 minutos. Recentemente, um subconjunto dessas mudanças foi copiado e colado em massa para a pista de perda maior de 2.92. Surpreendentemente, a execução yolo não ajustada quebrou o recorde de perda de 2.92 em 25%.