Me encanta el diseño de portillas contextual de Engram. Su simetría es hermosa.
Es una mezcla de embeddings donde los routers también son embeddings.
El MoE normal es "mezcla de FFNs donde los routers también son FFNs", pero los KeyFFNs solo son de polarización.
k_i=KeyFFN_i(x)
v_i=ValFFN_i(x)
o=sum_i σ(q·k_i)v_i
😅
¿Quién dijo que "usar K3 en pérdida = usar grad por camino"???
la forma correcta de usar K3 en pérdida es usar el GRADUADO COMPLETO.
El og GRPO usó k3 sin corrección IS (= grad por camino), lo cual es incorrecto. Pero no es culpa de K3!!