热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
如果我今天开始攻读博士学位,我可能会想研究在非大语言模型和大语言模型之间的小模型领域的强化学习的规模法则。这感觉还没有被充分探索。
人们似乎接受了这样一种民间智慧:LLM RL 只有在大型互联网预训练模型足够庞大时才开始发挥作用。为什么会这样?我们如何能够预测并提高学习的样本效率,作为参数、任务复杂性和预训练量的函数?
@yacineMTB 显然,如果你做对了,它应该是这样的,但你能在不同的游戏上训练一堆模型到收敛,然后将它们全部提炼成一个模型,从而提高样本效率和泛化能力吗?
@yacineMTB 我们有大胖子模型和只能下棋的模型,中间的模型不多。
19.14K
热门
排行
收藏