Мне нравится контекстно-зависимый дизайн гейтов Engram. Его симметрия прекрасна. Это смесь эмбеддингов, где маршрутизаторы также являются эмбеддингами. Обычный MoE — это "смесь FFN, где маршрутизаторы также являются FFN", но KeyFFN — это только смещение. k_i=KeyFFN_i(x) v_i=ValFFN_i(x) o=∑_i σ(q·k_i)v_i