Магазин DApp | Web3-центр мероприятий и игр

Актуальные темы

1/ Чтобы укрепить свою последнюю тему. Исследователи могут спросить: "Почему бы просто не использовать RL для извлечения институционального контекста?" Да, попробуйте! Но превращение моделей в используемые продукты для права, здравоохранения или услуг — это не Atari. Это рабочие процессы — и RL быстро сталкивается с неразберихой.

2/ Первый шаг кажется простым: фиксировать действия экспертов. Каждая красная линия, отмена или эскалация — это точка данных. В теории вы можете клонировать политику из истории. На практике журналы не фиксируют причины. Пункт может быть исключен из-за юридического риска, предпочтений клиента или просто привычки.

3/ Далее обучите модель вознаграждения на основе отзывов. Соберите сравнения: "этот черновик безопаснее, чем тот." Отлично работает в статьях по RLHF. В областях с высокими ставками время экспертов ограничено, и их суждения часто противоречат друг другу. Разрозненный, дорогостоящий и неаккуратный сигнал.

4/ Даже когда у вас есть результаты, распределение кредита кажется довольно жестоким? Результат дела зависит от многих лет ходатайств; восстановление пациента — от десятков вмешательств. Какое действие "заслужило награду"? RL процветает на коротких горизонтах, а не на институциональных временных шкалах.

24,3K

Топ

Рейтинг

Избранное