我喜歡 Engram 的上下文感知閘設計。它的對稱性很美。 這是一種嵌入的混合,其中路由器也是嵌入。 常規的 MoE 是「混合的 FFNs,其中路由器也是 FFNs」,但 KeyFFNs 僅為偏置。 k_i=KeyFFN_i(x) v_i=ValFFN_i(x) o=sum_i σ(q·k_i)v_i