熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
1/ 為了強化我上個主題的論點。研究人員可能會問:「為什麼不直接使用強化學習來提取機構背景?」是的,試試看!但將模型轉化為法律、醫療或服務的可用產品並不是簡單的事。這是工作流程——而強化學習很快就會遇到麻煩。
2/ 第一步聽起來很簡單:記錄專家的行動。每一條紅線、覆蓋或升級都是一個數據點。理論上,你可以從歷史中克隆一個政策。實際上,日誌並不捕捉原因。一個條款可能因法律風險、客戶偏好或純粹的習慣而被刪除。
3/ 接下來,從反饋中訓練獎勵模型。收集比較:“這個草稿比那個更安全。” 在 RLHF 論文中效果很好。在高風險領域,專家的時間稀缺,他們的判斷往往存在衝突。稀疏、昂貴且混亂的信號。
4/ 即使當你有結果時,信用分配似乎也有點殘酷?案件的結果取決於多年的動議;病人的康復取決於數十次的干預。哪一個行動「獲得了獎勵」?強化學習依賴於短期視野,而不是機構的時間尺度。
24.29K
熱門
排行
收藏