Adoro o design de portões consciente do contexto da Engram. Sua simetria é linda.
É uma mistura de embeddings onde roteadores também são embeddings.
O MoE comum é "uma mistura de FFNs onde roteadores também são FFNs", mas KeyFFNs são apenas para viés.
k_i=KeyFFN_i(x)
v_i=ValFFN_i(x)
o=sum_i σ(q·k_i)v_i
😅
Quem disse que "usar K3 na perda = usar o grad por caminho"???
a maneira correta de usar K3 em perda é usar o GRADUADO COMPLETO.
O GRPO original usou k3 sem correção IS (= grad por caminho), o que está errado. Mas não é culpa do K3!!
Nos últimos 6 meses, a perda do Speedrun do NanoGPT para 3,28 no FineWeb caiu 33%, ficando em 2 minutos. Recentemente, um subconjunto dessas mudanças foi copiado em massa para a faixa de perdas em escala maior de 2,92. Surpreendentemente, a corrida yolo desafinada quebrou o recorde de 2,92 derrotas em 25%.