1/ Um meinen letzten Thread zu stärken. Forscher könnten fragen: „Warum nicht einfach RL verwenden, um institutionellen Kontext zu extrahieren?“ Ja, probiere es! Aber Modelle in nutzbare Produkte für Recht, Gesundheitswesen oder Dienstleistungen zu verwandeln, ist kein Atari. Es sind Arbeitsabläufe — und RL stößt schnell auf chaotische Wände.
2/ Schritt eins klingt einfach: Expertenaktionen protokollieren. Jede rote Linie, Überschreibung oder Eskalation ist ein Datenpunkt. Theoretisch können Sie eine Richtlinie aus der Geschichte klonen. In der Praxis erfassen Protokolle nicht, warum. Eine Klausel könnte aus rechtlichen Risiken, Kundenpräferenzen oder schierer Gewohnheit gestrichen werden.
3/ Als Nächstes ein Belohnungsmodell aus Feedback trainieren. Vergleiche sammeln: „Dieser Entwurf ist sicherer als jener.“ Funktioniert großartig in RLHF-Papieren. In risikobehafteten Bereichen ist die Zeit der Experten knapp und ihre Urteile stehen oft im Widerspruch. Spärliches, kostspieliges und chaotisches Signal.
4/ Selbst wenn Sie Ergebnisse haben, scheint die Zuordnung von Krediten irgendwie brutal zu sein? Ein Fallausgang hängt von Jahren an Anträgen ab; die Genesung eines Patienten von Dutzenden von Interventionen. Welche Handlung hat die "Belohnung verdient"? RL gedeiht auf kurzen Zeitrahmen, nicht auf institutionellen Zeitplänen.
24,88K