Мені дуже подобається контекстно-орієнтований дизайн гейтингу Engram. Її симетрія прекрасна.
Це поєднання вбудовувань, де роутери також є вбудовуваннями.
Звичайний MoE — це «суміш FFN, де маршрутизатори також є FFN», але KeyFFN — лише з упередженнями.
k_i=KeyFFN_i(x)
v_i=ValFFN_i(x)
o=sum_i σ(q·k_i)v_i
😅
Хто сказав, що «використання K3 у втраті = використання градуату за шляхом»???
правильний спосіб використати K3 у збитках — це використовувати ПОВНИЙ градус.
оригінальний GRPO використав k3 без IS-корекції (= по шляху градиту), що є помилкою. Але це не вина K3!!