DApp Store | Pusat Web3 untuk Event & Game

Topik trending

jika saya memulai PhD hari ini, saya mungkin ingin mengerjakan undang-undang penskalaan untuk RL dalam rezim model kecil antara non-LLM dan LLM. Terasa kurang dieksplorasi

orang-orang telah menerima kebijaksanaan cerita rakyat ini bahwa LLM RL hanya mulai bekerja setelah hal yang telah dilatih sebelumnya internet yang besar cukup besar. Mengapa demikian? Bagaimana kita bisa memprediksi + meningkatkan efisiensi sampel pembelajaran sebagai fungsi parameter, kompleksitas tugas, dan jumlah prapelatihan?

@yacineMTB seperti jelas seharusnya jika Anda melakukannya dengan benar, tetapi berapa banyak Dapatkah Anda melatih banyak model pada permainan yang berbeda untuk konvergensi, kemudian menyaring semuanya menjadi satu model dan meningkatkan efisiensi sampel dan generalisasi?

@yacineMTB kami memiliki model chungus besar dan model catur yang hanya bisa bermain dan tidak banyak di antaranya

23,01K

Teratas

Peringkat

Favorit