se eu estivesse começando um doutorado hoje, provavelmente gostaria de trabalhar em leis de escala para RL no minúsculo regime de modelo entre não-LLMs e LLMs. parece pouco explorado
as pessoas meio que aceitaram essa sabedoria folclórica de que o LLM RL só começa a funcionar quando a enorme coisa pré-treinada na Internet é grande o suficiente. Por que isso? Como podemos prever + melhorar a eficiência da amostra de aprendizagem em função de parâmetros, complexidade da tarefa e quantidade de pré-treinamento?
@yacineMTB obviamente deveria se você fizer certo, mas quanto Você pode treinar vários modelos em diferentes jogos para convergência, depois destilá-los todos em um único modelo e melhorar a eficiência da amostra e a generalização?
@yacineMTB temos grandes modelos de chungus tudo e modelos de xadrez que só podem jogar e não muito no meio
23,02K