Ich liebe das kontextabhängige Gating-Design von Engram. Seine Symmetrie ist schön. Es ist eine Mischung aus Embeddings, bei der Router ebenfalls Embeddings sind. Reguläres MoE ist "Mischung von FFNs, bei der Router ebenfalls FFNs sind", aber KeyFFNs haben nur Bias. k_i=KeyFFN_i(x) v_i=ValFFN_i(x) o=sum_i σ(q·k_i)v_i