一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动 | OKX Wallet

热门话题

如果我今天开始攻读博士学位，我可能会想研究在非大语言模型和大语言模型之间的小模型领域的强化学习的规模法则。这感觉还没有被充分探索。

人们似乎接受了这样一种民间智慧：LLM RL 只有在大型互联网预训练模型足够庞大时才开始发挥作用。为什么会这样？我们如何能够预测并提高学习的样本效率，作为参数、任务复杂性和预训练量的函数？

@yacineMTB 显然，如果你做对了，它应该是这样的，但你能在不同的游戏上训练一堆模型到收敛，然后将它们全部提炼成一个模型，从而提高样本效率和泛化能力吗？

@yacineMTB 我们有大胖子模型和只能下棋的模型，中间的模型不多。

19.14K

热门

排行

收藏