1/ Per rafforzare il mio ultimo thread. I ricercatori potrebbero chiedere: “Perché non usare semplicemente il RL per estrarre il contesto istituzionale?” Sì, prova! Ma trasformare i modelli in prodotti utilizzabili per il diritto, la sanità o i servizi non è un gioco da ragazzi. Sono flussi di lavoro — e il RL si imbatte rapidamente in muri disordinati.
2/ Il primo passo sembra semplice: registrare le azioni degli esperti. Ogni modifica, override o escalation è un punto dati. In teoria, puoi clonare una policy dalla storia. In pratica, i log non catturano il perché. Una clausola potrebbe essere eliminata per rischio legale, preferenza del cliente o semplice abitudine.
3/ Successivamente, addestra un modello di ricompensa dai feedback. Raccogli confronti: “questa bozza è più sicura di quella.” Funziona benissimo nei documenti RLHF. Nei settori ad alto rischio, il tempo degli esperti è scarso e i loro giudizi spesso confliggono. Segnale scarso, costoso e disordinato.
4/ Anche quando hai risultati, l'assegnazione del credito sembra piuttosto brutale? Un risultato di un caso dipende da anni di mozioni; il recupero di un paziente da dozzine di interventi. Quale azione "ha guadagnato la ricompensa"? L'RL prospera su orizzonti brevi, non su scale temporali istituzionali.
24,73K