DApp Store | Web3 Hub tapahtumille ja peleille

Trendaavat aiheet

Bonk Eco continues to show strength amid $USELESS rally

Hosico+0,45 %

USELESS+0,85 %

IKUN−10 %

gib−16,44 %

Pump.fun to raise $1B token sale, traders speculating on airdrop

Boop.Fun leading the way with a new launchpad on Solana.

BOOP−3,39 %

Boopa−0,75 %

PORK0,00 %

You Jiacheng

You Jiacheng4.1. klo 17.44

😅 Kuka sanoi, että "K3:n käyttäminen tappiossa = polun kautta asteittain"??? oikea tapa käyttää K3:sta tappiotilassa on käyttää FULL gradia. og GRPO käytti k3:sta ilman IS-korjausta (= polkukohtainen grad), mikä on väärin. Mutta se ei ole K3:n vika!!

You Jiacheng2.1. klo 09.55

En todellakaan odottanut sitä. Mutta jälkikäteen ajateltuna monet muutokset vaikuttavat siirrettäviltä.

Larry Dial2.1. klo 05.55

Viimeisen kuuden kuukauden aikana NanoGPT:n nopeuslasku 3.28:aan FineWebissä laski 33 % kahteen minuuttiin. Äskettäin osa näistä muutoksista on kopioitu massamuodossa suuremmalle 2,92 häviöraitalle. Yllättäen säädetty yolo-juoksu rikkoi 2,92 tappion ennätyksen 25 %:lla.

You Jiacheng1.1. klo 15.18

HC käyttää kronecker-faktorisoituja alas&ylös-projektioita, mutta se tarvitsee sekoitusoperaation H^res. mHC vaatii strategisesti, että H^res on kaksinkertaisesti stokastisia matriiseja, mikä on sulku matmulin kanssa. (ortogonaali saattaa myös toimia) LatentMoE käyttää täysiä matriiseja alas- ja ylös-projektioihin.

You Jiacheng1.1. klo 15.08

Mielenkiintoista. HyperConnection ja LatentMoE tekevät itse asiassa samankaltaisia asioita. Kuvakaappaus otettu Deepseekin uudesta artikkelista (ladannut Liang) cc @teortaxesTex

Johtavat

Rankkaus

Suosikit