Me encanta el diseño de portillas contextual de Engram. Su simetría es hermosa.
Es una mezcla de embeddings donde los routers también son embeddings.
El MoE normal es "mezcla de FFNs donde los routers también son FFNs", pero los KeyFFNs solo son de polarización.
k_i=KeyFFN_i(x)
v_i=ValFFN_i(x)
o=sum_i σ(q·k_i)v_i
😅
¿Quién dijo que "usar K3 en pérdida = usar grad por camino"???
la forma correcta de usar K3 en pérdida es usar el GRADUADO COMPLETO.
El og GRPO usó k3 sin corrección IS (= grad por camino), lo cual es incorrecto. Pero no es culpa de K3!!
En los últimos 6 meses, la pérdida de NanoGPT Speedrun a 3,28 en FineWeb bajó un 33%, hasta 2 minutos. Recientemente, un subconjunto de estos cambios fue copiado y pegado en masa a la pista de pérdidas a mayor escala de 2,92. Sorprendentemente, la carrera de yolo desafinada superó el récord de 2,92 derrotas en un 25%.