Мне нравится контекстно-зависимый дизайн гейтов Engram. Его симметрия прекрасна.
Это смесь эмбеддингов, где маршрутизаторы также являются эмбеддингами.
Обычный MoE — это "смесь FFN, где маршрутизаторы также являются FFN", но KeyFFN — это только смещение.
k_i=KeyFFN_i(x)
v_i=ValFFN_i(x)
o=∑_i σ(q·k_i)v_i
😅
кто сказал, что "использование k3 в потере = использование градиента по пути"???
правильный способ использования k3 в потере — это использовать ПОЛНЫЙ градиент.
в GRPO использовали k3 без коррекции IS (= градиент по пути), что неправильно. но это не вина k3!!!