Adoro il design di gating consapevole del contesto di Engram. La sua simmetria è bellissima.
È una miscela di embedding in cui i router sono anche embedding.
Il MoE regolare è "miscela di FFN in cui i router sono anche FFN" ma i KeyFFN sono solo bias.
k_i=KeyFFN_i(x)
v_i=ValFFN_i(x)
o=sum_i σ(q·k_i)v_i
😅
chi ha detto che "usare k3 nella loss = usare il grad path-wise"???
Il modo corretto di usare k3 nella loss è utilizzare il grad FULL.
OG GRPO ha usato k3 senza correzione IS (= grad path-wise), il che è sbagliato. ma non è colpa di k3!!!
Negli ultimi 6 mesi, il NanoGPT Speedrun per una perdita di 3.28 su FineWeb è sceso del 33% a 2 minuti. Recentemente, un sottoinsieme di queste modifiche è stato copiato e incollato in blocco nella traccia di perdita più ampia di 2.92. Sorprendentemente, la corsa yolo non ottimizzata ha superato il record di perdita di 2.92 del 25%.