Miluji kontextově vnímavý design brán od Engramu. Jeho symetrie je nádherná.
Je to směs embeddingů, kde jsou routery zároveň embeddingy.
Běžné MoE je "směs FFN, kde jsou routery zároveň FFN", ale KeyFFN jsou pouze zaujaté.
k_i=KeyFFN_i(x)
v_i=ValFFN_i(x)
o=sum_i σ(q·k_i)v_i
😅
který řekl, že "použití k3 ve ztrátě = použití cest-po-gradu"???
Správný způsob, jak použít K3 při ztrátě, je použít FULL Grad.
og GRPO použil k3 bez IS-korekce (= cestově grad), což je nesprávné. Ale není to chyba K3!!
Za posledních 6 měsíců klesl NanoGPT Speedrun na 3,28 na FineWeb o 33 % na 2 minuty. Nedávno byla část těchto změn hromadně zkopírována do větší ztrátové stopy 2,92. Překvapivě neupravený yolo run překonal rekord ztrát 2,92 o 25 %.