إذا كنت أبدأ درجة الدكتوراه اليوم ، فربما أرغب في العمل على قوانين توسيع نطاق RL في نظام النموذج الصغير بين غير LLMs و LLMs.
لقد قبل الناس نوعا ما هذه الحكمة الفولكلورية القائلة بأن LLM RL يبدأ العمل فقط بمجرد أن يكون الشيء الضخم الذي تم تدريبه مسبقا على الإنترنت كبيرا بما يكفي. لماذا هذا؟ كيف يمكننا التنبؤ + تحسين كفاءة العينة للتعلم كدالة للمعلمات وتعقيد المهمة ومقدار التدريب المسبق؟
@yacineMTB من الواضح أنه يجب أن يكون إذا فعلت ذلك بشكل صحيح ، ولكن كم هل يمكنك تدريب مجموعة من النماذج على ألعاب مختلفة على التقارب ، ثم تقطيرها جميعا في نموذج واحد وتحسين كفاءة العينة والتعميم؟
@yacineMTB لدينا نماذج كبيرة من chungus كل شيء ونماذج الشطرنج التي يمكن لعبها فقط وليس الكثير بينهما
‏‎23.02‏K