Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
1/ Para reforzar mi último hilo. Los investigadores podrían preguntar: “¿Por qué no usar RL para extraer contexto institucional?” ¡Sí, inténtalo! Pero convertir modelos en productos utilizables para la ley, la salud o el servicio no es un juego de Atari. Son flujos de trabajo — y RL se encuentra rápidamente con muros desordenados.
2/ El primer paso parece simple: registrar las acciones de los expertos. Cada línea roja, anulación o escalada es un punto de datos. En teoría, puedes clonar una política del historial. En la práctica, los registros no capturan el porqué. Una cláusula puede ser eliminada por riesgo legal, preferencia del cliente o simplemente por costumbre.
3/ A continuación, entrena un modelo de recompensa a partir de la retroalimentación. Recoge comparaciones: “este borrador es más seguro que ese.” Funciona muy bien en los documentos de RLHF. En dominios de alto riesgo, el tiempo de los expertos es escaso y sus juicios a menudo entran en conflicto. Señal escasa, costosa y desordenada.
4/ Incluso cuando tienes resultados, la asignación de crédito parece un poco brutal? El resultado de un caso depende de años de mociones; la recuperación de un paciente de docenas de intervenciones. ¿Qué acción "ganó la recompensa"? El aprendizaje por refuerzo prospera en horizontes cortos, no en escalas de tiempo institucionales.
24,29K
Parte superior
Clasificación
Favoritos