熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
如果我今天要開始攻讀博士學位,我可能會想研究在非大型語言模型和大型語言模型之間的微型模型範疇中的強化學習的擴展法則。這個領域感覺尚未被充分探索。
人們似乎接受了這種民間智慧,即 LLM RL 只有在大型的互聯網預訓練模型足夠大時才會開始運作。這是為什麼呢?我們如何能夠預測並改善學習的樣本效率,這取決於參數、任務複雜性和預訓練的數量?
@yacineMTB 顯然,如果你做對了,這是應該的,但你能在不同的遊戲上訓練一堆模型到收斂,然後將它們全部提煉成一個模型,並改善樣本效率和泛化能力嗎?
@yacineMTB 我們有大胖子模型和只能下棋的模型,中間的選擇不多。
23.01K
熱門
排行
收藏