热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
1/ 为了加强我上一个主题的论点。研究人员可能会问:“为什么不直接使用强化学习来提取机构背景?”是的,试试吧!但将模型转化为法律、医疗或服务的可用产品并不是简单的事情。这是工作流程——而强化学习很快就会遇到麻烦。
2/ 第一步听起来很简单:记录专家的操作。每一个红线、覆盖或升级都是一个数据点。理论上,你可以从历史中克隆一个政策。实际上,日志并不能捕捉原因。某个条款可能因为法律风险、客户偏好或单纯的习惯而被删除。
3/ 接下来,从反馈中训练奖励模型。收集比较:“这个草稿比那个更安全。” 在RLHF论文中效果很好。在高风险领域,专家的时间稀缺,他们的判断往往存在冲突。信号稀疏、成本高且杂乱。
4/ 即使在你有结果的时候,信用分配似乎也有点残酷?案件结果取决于多年的动议;患者的康复取决于数十种干预措施。哪个行动“赢得了奖励”?强化学习依赖于短期视野,而不是机构的时间尺度。
24.29K
热门
排行
收藏