якби я починав докторську дисертацію сьогодні, я, ймовірно, хотів би працювати над законами масштабування для RL у крихітному режимі моделі між не-LLM та LLM. відчуває себе недостатньо вивченим
Люди начебто прийняли цю фольклорну мудрість про те, що LLM RL починає працювати лише тоді, коли величезна заздалегідь підготовлена річ в Інтернеті стає достатньо великою. Чому так? Як ми можемо передбачити + покращити вибіркову ефективність навчання як функцію параметрів, складності завдання та обсягу попередньої підготовки?
@yacineMTB як, очевидно, так і повинно бути, якщо ви все зробите правильно, але наскільки Чи можете ви навчити купу моделей на різних іграх до конвергенції, а потім перегнати їх усіх в одну модель і покращити як ефективність вибірки, так і узагальнення?
@yacineMTB у нас є великі моделі Chungus все і моделі "тільки грати-грати-шахи" і не так багато між ними
32,37K