J'adore le design de gating contextuel d'Engram. Sa symétrie est magnifique.
C'est un mélange d'embeddings où les routeurs sont également des embeddings.
Le MoE régulier est "un mélange de FFNs où les routeurs sont également des FFNs" mais les KeyFFNs n'ont que des biais.
k_i=KeyFFN_i(x)
v_i=ValFFN_i(x)
o=sum_i σ(q·k_i)v_i
😅
qui a dit que "utiliser k3 dans la perte = utiliser le grad par chemin"???
la bonne façon d'utiliser k3 dans la perte est d'utiliser le grad COMPLET.
OG GRPO a utilisé k3 sans correction IS (= grad par chemin), ce qui est faux. mais ce n'est pas la faute de k3!!!
Au cours des 6 derniers mois, la vitesse de NanoGPT pour atteindre une perte de 3,28 sur FineWeb a chuté de 33 % à 2 minutes. Récemment, un sous-ensemble de ces changements a été copié-collé en masse sur la piste de perte à plus grande échelle de 2,92. Étonnamment, la course yolo non réglée a battu le record de perte de 2,92 de 25 %.