1/ Para reforçar o meu último tópico. Os pesquisadores podem perguntar: "Por que não usar RL para extrair contexto institucional?" Sim, tente! Mas transformar modelos em produtos utilizáveis para a lei, saúde ou serviços não é Atari. São fluxos de trabalho — e RL encontra barreiras complicadas rapidamente.
2/ O primeiro passo parece simples: registar as ações dos especialistas. Cada linha vermelha, sobreposição ou escalonamento é um ponto de dados. Em teoria, você pode clonar uma política do histórico. Na prática, os registos não capturam o porquê. Uma cláusula pode ser eliminada por risco legal, preferência do cliente ou mero hábito.
3/ Em seguida, treine um modelo de recompensa a partir do feedback. Colete comparações: "este rascunho é mais seguro do que aquele." Funciona muito bem em artigos de RLHF. Em domínios de alto risco, o tempo dos especialistas é escasso e seus julgamentos muitas vezes entram em conflito. Sinal escasso, caro e confuso.
4/ Mesmo quando você tem resultados, a atribuição de crédito parece meio brutal? O resultado de um caso depende de anos de moções; a recuperação de um paciente em dezenas de intervenções. Qual ação "ganhou a recompensa"? RL prospera em horizontes curtos, não em escalas de tempo institucionais.
24,3K