1/ Untuk steelman benang terakhir saya sendiri. Para peneliti mungkin bertanya: "Mengapa tidak menggunakan RL untuk mengekstrak konteks kelembagaan?" Ya, coba! Tetapi mengubah model menjadi produk yang dapat digunakan untuk hukum, perawatan kesehatan, atau layanan bukanlah Atari. Ini adalah alur kerja — dan RL menabrak dinding yang berantakan dengan cepat.
2/ Langkah pertama terdengar sederhana: catat tindakan ahli. Setiap garis merah, penggantian, atau eskalasi adalah titik data. Secara teori, Anda dapat mengkloning kebijakan dari sejarah. Dalam praktiknya, log tidak menangkap alasannya. Klausul mungkin dibuat untuk risiko hukum, preferensi klien, atau kebiasaan belaka.
3/ Selanjutnya, latih model hadiah dari umpan balik. Kumpulkan perbandingan: "draf ini lebih aman dari yang itu." Bekerja dengan baik di makalah RLHF. Dalam domain berisiko tinggi, waktu ahli langka dan penilaian mereka sering bertentangan. Sinyal jarang, mahal, dan berantakan.
4/ Bahkan ketika Anda memiliki hasil, penugasan kredit tampak agak brutal? Hasil kasus tergantung pada mosi bertahun-tahun; pemulihan pasien pada lusinan intervensi. Tindakan mana yang "mendapatkan hadiah"? RL berkembang pada cakrawala pendek, bukan skala waktu institusional.
24,29K