Miluji kontextově vnímavý design brán od Engramu. Jeho symetrie je nádherná.
Je to směs embeddingů, kde jsou routery zároveň embeddingy.
Běžné MoE je "směs FFN, kde jsou routery zároveň FFN", ale KeyFFN jsou pouze zaujaté.
k_i=KeyFFN_i(x)
v_i=ValFFN_i(x)
o=sum_i σ(q·k_i)v_i
😅
který řekl, že "použití k3 ve ztrátě = použití cest-po-gradu"???
Správný způsob, jak použít K3 při ztrátě, je použít FULL Grad.
og GRPO použil k3 bez IS-korekce (= cestově grad), což je nesprávné. Ale není to chyba K3!!