Tôi yêu thiết kế cổng nhận thức ngữ cảnh của Engram. Sự đối xứng của nó thật đẹp. Nó là sự pha trộn của các embedding mà trong đó các router cũng là embedding. MoE thông thường là "sự pha trộn của các FFN mà trong đó các router cũng là FFN" nhưng KeyFFN chỉ có độ chệch. k_i=KeyFFN_i(x) v_i=ValFFN_i(x) o=sum_i σ(q·k_i)v_i