DApp Store | Hub da Web3 para eventos e jogos

Tópicos em alta

se eu estivesse começando um doutorado hoje, provavelmente gostaria de trabalhar em leis de escala para RL no minúsculo regime de modelo entre não-LLMs e LLMs. parece pouco explorado

as pessoas meio que aceitaram essa sabedoria folclórica de que o LLM RL só começa a funcionar quando a enorme coisa pré-treinada na Internet é grande o suficiente. Por que isso? Como podemos prever + melhorar a eficiência da amostra de aprendizagem em função de parâmetros, complexidade da tarefa e quantidade de pré-treinamento?

@yacineMTB obviamente deveria se você fizer certo, mas quanto Você pode treinar vários modelos em diferentes jogos para convergência, depois destilá-los todos em um único modelo e melhorar a eficiência da amostra e a generalização?

@yacineMTB temos grandes modelos de chungus tudo e modelos de xadrez que só podem jogar e não muito no meio

23,02K

Melhores

Classificação

Favoritos