jika saya memulai PhD hari ini, saya mungkin ingin mengerjakan undang-undang penskalaan untuk RL dalam rezim model kecil antara non-LLM dan LLM. Terasa kurang dieksplorasi
orang-orang telah menerima kebijaksanaan cerita rakyat ini bahwa LLM RL hanya mulai bekerja setelah hal yang telah dilatih sebelumnya internet yang besar cukup besar. Mengapa demikian? Bagaimana kita bisa memprediksi + meningkatkan efisiensi sampel pembelajaran sebagai fungsi parameter, kompleksitas tugas, dan jumlah prapelatihan?
@yacineMTB seperti jelas seharusnya jika Anda melakukannya dengan benar, tetapi berapa banyak Dapatkah Anda melatih banyak model pada permainan yang berbeda untuk konvergensi, kemudian menyaring semuanya menjadi satu model dan meningkatkan efisiensi sampel dan generalisasi?
@yacineMTB kami memiliki model chungus besar dan model catur yang hanya bisa bermain dan tidak banyak di antaranya
23,01K