Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
1/ Oceláři mé vlastní poslední niti. Výzkumníci by se mohli ptát: "Proč prostě nepoužít RL k extrakci institucionálního kontextu?" Ano, vyzkoušejte! Ale přeměna modelů na použitelné produkty pro právo, zdravotnictví nebo služby není Atari. Jsou to pracovní postupy – a RL rychle naráží na chaotické zdi.
2/ První krok zní jednoduše: zaznamenejte expertní akce. Každá redline, přepsání nebo eskalace je datový bod. Teoreticky můžete naklonovat politiku z historie. V praxi logy nezachycují proč. Klauzule může být uzavřena kvůli právnímu riziku, preferencím klienta nebo pouhému zvyku.
3/ Dále vytrénujte model odměňování ze zpětné vazby. Sbírejte srovnání: "tento návrh je bezpečnější než tamten." Funguje skvěle v papírech RLHF. V doménách s vysokými sázkami je času odborníků málo a jejich úsudky jsou často v rozporu. Řídký, nákladný a chaotický signál.
4/ I když máte výsledky, přiřazení zápočtu se zdá být trochu brutální? Výsledek případu závisí na letech pohybů; uzdravení pacienta na desítkách zákroků. Která akce "vynesla odměnu"? RL se daří v krátkých horizontech, nikoli v institucionálních časových rámcích.
24,74K
Top
Hodnocení
Oblíbené