Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
se eu estivesse começando um doutorado hoje, provavelmente gostaria de trabalhar em leis de escala para RL no minúsculo regime de modelo entre não-LLMs e LLMs. parece pouco explorado
as pessoas meio que aceitaram essa sabedoria folclórica de que o LLM RL só começa a funcionar quando a enorme coisa pré-treinada na Internet é grande o suficiente. Por que isso? Como podemos prever + melhorar a eficiência da amostra de aprendizagem em função de parâmetros, complexidade da tarefa e quantidade de pré-treinamento?
@yacineMTB obviamente deveria se você fizer certo, mas quanto
Você pode treinar vários modelos em diferentes jogos para convergência, depois destilá-los todos em um único modelo e melhorar a eficiência da amostra e a generalização?
@yacineMTB temos grandes modelos de chungus tudo e modelos de xadrez que só podem jogar e não muito no meio
23,02K
Melhores
Classificação
Favoritos