もし私が今日博士号を取得し始めたら、おそらく非LLMとLLMの間の小さなモデル体制におけるRLの法則のスケーリングに取り組みたいと思うでしょう。十分に未踏に感じます
人々は、LLM RLは、インターネットの巨大な事前トレーニングされたものが十分に大きくなって初めて機能し始めるという民間伝承の知恵をある程度受け入れています。それはどうしてですか。パラメータ、タスクの複雑さ、および事前学習の量の関数として学習のサンプル効率をどのように予測 + 改善できますか?
@yacineMTB、正しく行えば当然そうすべきですが、どれくらいの程度です さまざまなゲームで多数のモデルを収束するようにトレーニングし、それらをすべて 1 つのモデルに抽出して、サンプル効率と一般化の両方を向上させることはできますか?
@yacineMTB、大きなチュングス、エブリシングモデル、チェスしかプレイできないモデルがあり、その間はあまりありません
32.37K