我喜欢Engram的上下文感知门控设计。它的对称性很美。 它是一个嵌入的混合体,其中路由器也是嵌入。 常规的MoE是“混合FFNs,其中路由器也是FFNs”,但KeyFFNs仅为偏置。 k_i=KeyFFN_i(x) v_i=ValFFN_i(x) o=∑_i σ(q·k_i)v_i