一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX | OKX Wallet

熱門話題

如果我今天要開始攻讀博士學位，我可能會想研究在非大型語言模型和大型語言模型之間的微型模型範疇中的強化學習的擴展法則。這個領域感覺尚未被充分探索。

人們似乎接受了這種民間智慧，即 LLM RL 只有在大型的互聯網預訓練模型足夠大時才會開始運作。這是為什麼呢？我們如何能夠預測並改善學習的樣本效率，這取決於參數、任務複雜性和預訓練的數量？

@yacineMTB 顯然，如果你做對了，這是應該的，但你能在不同的遊戲上訓練一堆模型到收斂，然後將它們全部提煉成一個模型，並改善樣本效率和泛化能力嗎？

@yacineMTB 我們有大胖子模型和只能下棋的模型，中間的選擇不多。

23.01K

熱門

排行

收藏