Loja DApp | Hub Web3 para eventos e jogos

Tópicos populares

#

Bonk Eco continues to show strength amid $USELESS rally

#

Pump.fun to raise $1B token sale, traders speculating on airdrop

#

Boop.Fun leading the way with a new launchpad on Solana.

BOOP-0,62%

Boopa-7,92%

PORK-3,82%

You Jiacheng

You Jiacheng13/01, 08:18

Adoro o design de gating consciente do contexto do Engram. A sua simetria é linda. É uma mistura de embeddings onde os routers também são embeddings. O MoE regular é "mistura de FFNs onde os routers também são FFNs", mas os KeyFFNs são apenas bias. k_i=KeyFFN_i(x) v_i=ValFFN_i(x) o=soma_i σ(q·k_i)v_i

70

You Jiacheng4/01, 17:44

😅 quem disse que "usar k3 na perda = usar gradiente por caminho"??? a maneira correta de usar k3 na perda é usar o gradiente COMPLETO. o GRPO usou k3 sem correção IS (= gradiente por caminho), o que está errado. mas não é culpa do k3!!!

139

You Jiacheng2/01, 09:55

não vou mentir, não esperava isso. mas, em retrospectiva, muitas mudanças parecem transferíveis.

Larry Dial2/01, 05:55

Nos últimos 6 meses, a Speedrun do NanoGPT para uma perda de 3.28 no FineWeb caiu 33% para 2 minutos. Recentemente, um subconjunto dessas mudanças foi copiado e colado em massa para a pista de perda maior de 2.92. Surpreendentemente, a execução yolo não ajustada quebrou o recorde de perda de 2.92 em 25%.

164

Top

Classificação

Favoritos

Português (Portugal)简体中文繁體中文 English Tiếng Việt Русский Español (Latinoamérica)Bahasa Indonesia Français Deutsch Italiano Polski Čeština Română Português (Brasil)Українська Español (España)Nederlands العربية 日本語 Norsk (bokmål)Suomi Svenska Türkçe

Mais informações sobre a OKX Web3

Transferir Academia Sobre nós Carreiras Contacte-nos Termos de serviço Aviso de privacidade X (anteriormente Twitter)

Produto

Painel da carteira Swap Marketplace Earn Descobrir Construir Explorador Segurança

Suporte

Centro de apoio Verificação oficial Comunicados Lista de taxas da DEX Ligue-se à OKX Carteira Bitcoin Carteira Ethereum Carteira Solana