Saya suka desain gerbang Engram yang sadar konteks. Simetrinya indah.
Ini adalah campuran penyematan di mana router juga menyematkan.
MoE biasa adalah "campuran FFN di mana router juga FFN" tetapi KeyFFN hanya bias.
k_i=KeyFFN_i(x)
v_i=ValFFN_i(x)
o=sum_i σ(q·k_i)v_i
😅
Siapa yang mengatakan bahwa "menggunakan K3 dalam Loss = menggunakan Path-wise Grad"???
cara yang benar untuk menggunakan k3 dalam kerugian adalah dengan menggunakan grad FULL.
og GRPO menggunakan k3 tanpa koreksi IS (= grad jalur), yang salah. Tapi itu bukan salah K3!!
Dalam 6 bulan terakhir, NanoGPT Speedrun menjadi 3,28 kehilangan di FineWeb turun 33% menjadi 2 menit. Baru-baru ini sebagian dari perubahan ini disalin-tempel secara massal ke jalur kerugian 2,92 skala besar. Anehnya, yolo run yang tidak disetel memecahkan rekor kerugian 2,92 sebesar 25%.