😅
Kuka sanoi, että "K3:n käyttäminen tappiossa = polun kautta asteittain"???
oikea tapa käyttää K3:sta tappiotilassa on käyttää FULL gradia.
og GRPO käytti k3:sta ilman IS-korjausta (= polkukohtainen grad), mikä on väärin. Mutta se ei ole K3:n vika!!
Viimeisen kuuden kuukauden aikana NanoGPT:n nopeuslasku 3.28:aan FineWebissä laski 33 % kahteen minuuttiin. Äskettäin osa näistä muutoksista on kopioitu massamuodossa suuremmalle 2,92 häviöraitalle. Yllättäen säädetty yolo-juoksu rikkoi 2,92 tappion ennätyksen 25 %:lla.
HC käyttää kronecker-faktorisoituja alas&ylös-projektioita, mutta se tarvitsee sekoitusoperaation H^res.
mHC vaatii strategisesti, että H^res on kaksinkertaisesti stokastisia matriiseja, mikä on sulku matmulin kanssa.
(ortogonaali saattaa myös toimia)
LatentMoE käyttää täysiä matriiseja alas- ja ylös-projektioihin.
Mielenkiintoista. HyperConnection ja LatentMoE tekevät itse asiassa samankaltaisia asioita.
Kuvakaappaus otettu Deepseekin uudesta artikkelista (ladannut Liang)
cc @teortaxesTex