J'adore le design de gating contextuel d'Engram. Sa symétrie est magnifique. C'est un mélange d'embeddings où les routeurs sont également des embeddings. Le MoE régulier est "un mélange de FFNs où les routeurs sont également des FFNs" mais les KeyFFNs n'ont que des biais. k_i=KeyFFN_i(x) v_i=ValFFN_i(x) o=sum_i σ(q·k_i)v_i