nếu tôi bắt đầu một chương trình tiến sĩ hôm nay, tôi có lẽ muốn nghiên cứu về các quy luật mở rộng cho RL trong chế độ mô hình nhỏ giữa các mô hình không phải LLM và LLM. cảm thấy chưa được khám phá nhiều.
mọi người đã chấp nhận một cách nào đó rằng trí tuệ nhân tạo LLM RL chỉ bắt đầu hoạt động khi mô hình được huấn luyện trên internet lớn đủ. Tại sao lại như vậy? Làm thế nào chúng ta có thể dự đoán và cải thiện hiệu quả mẫu của việc học như một hàm của các tham số, độ phức tạp của nhiệm vụ và lượng huấn luyện trước?
@yacineMTB như rõ ràng là nó nên như vậy nếu bạn làm đúng, nhưng bao nhiêu bạn có thể huấn luyện một loạt các mô hình trên các trò chơi khác nhau đến hội tụ, sau đó chưng cất tất cả chúng thành một mô hình duy nhất và cải thiện cả hiệu quả mẫu và khả năng tổng quát?
@yacineMTB chúng tôi có các mô hình big chungus lớn và các mô hình chỉ có thể chơi cờ và không có nhiều thứ ở giữa.
32,39K