1/ Para steelman meu próprio último fio. Os pesquisadores podem perguntar: "Por que não usar RL para extrair contexto institucional?" Sim, tente! Mas transformar modelos em produtos utilizáveis para direito, saúde ou serviços não é Atari. São fluxos de trabalho - e RL se depara com paredes bagunçadas rapidamente.
2/ O primeiro passo parece simples: registrar ações de especialistas. Cada linha vermelha, substituição ou escalonamento é um ponto de dados. Em teoria, você pode clonar uma política do histórico. Na prática, os logs não capturam o porquê. Uma cláusula pode ser anulada por risco legal, preferência do cliente ou puro hábito.
3/ Em seguida, treine um modelo de recompensa a partir de feedback. Colete comparações: "este rascunho é mais seguro do que aquele". Funciona muito bem em papéis RLHF. Em domínios de alto risco, o tempo do especialista é escasso e seus julgamentos geralmente entram em conflito. Sinal esparso, caro e confuso.
4/ Mesmo quando você tem resultados, a atribuição de crédito parece meio brutal? O resultado de um caso depende de anos de moções; a recuperação de um paciente em dezenas de intervenções. Qual ação "ganhou a recompensa"? A RL prospera em horizontes curtos, não em prazos institucionais.
24,29K