Jag älskar Engrams kontextmedvetna grinddesign. Dess symmetri är vacker.
Det är en blandning av embeddings där routers också är embeddings.
Vanlig MoE är "en blandning av FFN:er där routrar också är FFN:er" men KeyFFN:er är endast bias.
k_i=KeyFFN_i(x)
v_i=ValFFN_i(x)
o=sum_i σ(q·k_i)v_i
😅
Vem sa att "använda K3 i förlust = använda path-wise grad"???
det korrekta sättet att använda k3 i förlust är att använda FULL grad.
och GRPO använde k3 utan IS-korrigering (= vägvis-grad), vilket är fel. Men det är inte K3:s fel!!
Under de senaste 6 månaderna sjönk NanoGPT:s speedrun till 3,28 på FineWeb med 33 % till 2 minuter. Nyligen kopierades en del av dessa förändringar i bulk till den större förlustspåret på 2,92. Överraskande nog slog den otrimmade yolo-runen förlustrekordet på 2,92 med 25%.