Ich liebe das kontextabhängige Gating-Design von Engram. Seine Symmetrie ist schön.
Es ist eine Mischung aus Embeddings, bei der Router ebenfalls Embeddings sind.
Reguläres MoE ist "Mischung von FFNs, bei der Router ebenfalls FFNs sind", aber KeyFFNs haben nur Bias.
k_i=KeyFFN_i(x)
v_i=ValFFN_i(x)
o=sum_i σ(q·k_i)v_i
😅
Wer hat gesagt, dass "k3 im Verlust = pfadweise Grad"???
Der richtige Weg, k3 im Verlust zu verwenden, ist, den vollen Grad zu verwenden.
OG GRPO hat k3 ohne IS-Korrektur (= pfadweise Grad) verwendet, was falsch ist. Aber es ist nicht k3s Schuld!!!
In den letzten 6 Monaten ist der NanoGPT Speedrun mit einem Verlust von 3,28 auf FineWeb um 33 % auf 2 Minuten gesunken. Kürzlich wurden einige dieser Änderungen in großen Mengen auf die größere 2,92 Verluststrecke kopiert. Überraschenderweise hat der ungetunte Yolo-Lauf den 2,92 Verlustrekord um 25 % übertroffen.