Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
1/ Para steelman meu próprio último fio. Os pesquisadores podem perguntar: "Por que não usar RL para extrair contexto institucional?" Sim, tente! Mas transformar modelos em produtos utilizáveis para direito, saúde ou serviços não é Atari. São fluxos de trabalho - e RL se depara com paredes bagunçadas rapidamente.
2/ O primeiro passo parece simples: registrar ações de especialistas. Cada linha vermelha, substituição ou escalonamento é um ponto de dados. Em teoria, você pode clonar uma política do histórico. Na prática, os logs não capturam o porquê. Uma cláusula pode ser anulada por risco legal, preferência do cliente ou puro hábito.
3/ Em seguida, treine um modelo de recompensa a partir de feedback. Colete comparações: "este rascunho é mais seguro do que aquele". Funciona muito bem em papéis RLHF. Em domínios de alto risco, o tempo do especialista é escasso e seus julgamentos geralmente entram em conflito. Sinal esparso, caro e confuso.
4/ Mesmo quando você tem resultados, a atribuição de crédito parece meio brutal? O resultado de um caso depende de anos de moções; a recuperação de um paciente em dezenas de intervenções. Qual ação "ganhou a recompensa"? A RL prospera em horizontes curtos, não em prazos institucionais.
24,29K
Melhores
Classificação
Favoritos