Мне нравится контекстно-зависимый дизайн гейтов Engram. Его симметрия прекрасна.
Это смесь эмбеддингов, где маршрутизаторы также являются эмбеддингами.
Обычный MoE — это "смесь FFN, где маршрутизаторы также являются FFN", но KeyFFN — это только смещение.
k_i=KeyFFN_i(x)
v_i=ValFFN_i(x)
o=∑_i σ(q·k_i)v_i
😅
кто сказал, что "использование k3 в потере = использование градиента по пути"???
правильный способ использования k3 в потере — это использовать ПОЛНЫЙ градиент.
в GRPO использовали k3 без коррекции IS (= градиент по пути), что неправильно. но это не вина k3!!!
За последние 6 месяцев скорость NanoGPT до 3.28 по потере на FineWeb снизилась на 33% до 2 минут. Недавно подмножество этих изменений было массово скопировано и вставлено в более крупный трек с потерей 2.92. Удивительно, но неотлаженный запуск yolo побил рекорд потери 2.92 на 25%.