Engram'ın bağlam duyarlı kapı tasarımını çok seviyorum. Simetrisi çok güzel.
Bu, yönlendiricilerin de gömülü olduğu bir karışım.
Normal MoE, "yönlendiricilerin de FFN olduğu FFN'lerin karışımı" ama KeyFFN'ler sadece önyargılıdır.
k_i=KeyFFN_i(x)
v_i=ValFFN_i(x)
o=sum_i σ(q·k_i)v_i
😅
"kayıpta k3 kullanmak = yol derecesi kullanmak" demiş???
K3'ü kayıpta kullanmanın doğru yolu FULL grad'ı kullanmaktır.
og GRPO, k3'ü IS-düzeltmesi olmadan (= yol bazında grad) kullandı, bu yanlış. Ama bu K3'ün suçu değil!!
Son 6 ayda FineWeb'te NanoGPT hız kaybı 3.28'e kadar %33 azalarak 2 dakikaya düştü. Son zamanlarda bu değişikliklerin bir alt kümesi daha büyük ölçekli 2.92 kayıp parçasına toplu kopyalanıp yapıştırıldı. Şaşırtıcı bir şekilde, ayarlanmamış yolo koşusu 2.92'lik kayıp rekorunu %25 kırdı.