😅
wie zei dat "k3 gebruiken in verlies = pad-gewijze grad"???
de juiste manier om k3 in verlies te gebruiken is om de VOLLEDIGE grad te gebruiken.
og GRPO gebruikte k3 zonder IS-correctie (= pad-gewijze grad), wat verkeerd is. maar het is niet de schuld van k3!!!
In de afgelopen 6 maanden is de NanoGPT Speedrun naar 3.28 verlies op FineWeb met 33% gedaald naar 2 minuten. Onlangs zijn een subset van deze wijzigingen in bulk gekopieerd en geplakt naar het grotere 2.92 verliestraject. Verrassend genoeg heeft de niet-afgestemde yolo-run het 2.92 verliesrecord met 25% gebroken.
HC gebruikt kronecker gefactoriseerde neer- en op-projecties, maar het heeft een mengoperatie H^res nodig.
mHC vereist strategisch dat H^res dubbel stochastische matrices zijn, wat een sluiting is ten opzichte van matmul.
(orthogonaal werkt misschien ook)
LatentMoE gebruikt volledige matrices voor neer- en op-projecties.
Interessant. HyperConnection en LatentMoE doen eigenlijk vergelijkbare dingen.
screenshot genomen uit het nieuwe paper van deepseek (geüpload door Liang)
cc @teortaxesTex