DApp Store | Centrum Web3 pro události a hry

Populární témata

1/ Oceláři mé vlastní poslední niti. Výzkumníci by se mohli ptát: "Proč prostě nepoužít RL k extrakci institucionálního kontextu?" Ano, vyzkoušejte! Ale přeměna modelů na použitelné produkty pro právo, zdravotnictví nebo služby není Atari. Jsou to pracovní postupy – a RL rychle naráží na chaotické zdi.

2/ První krok zní jednoduše: zaznamenejte expertní akce. Každá redline, přepsání nebo eskalace je datový bod. Teoreticky můžete naklonovat politiku z historie. V praxi logy nezachycují proč. Klauzule může být uzavřena kvůli právnímu riziku, preferencím klienta nebo pouhému zvyku.

3/ Dále vytrénujte model odměňování ze zpětné vazby. Sbírejte srovnání: "tento návrh je bezpečnější než tamten." Funguje skvěle v papírech RLHF. V doménách s vysokými sázkami je času odborníků málo a jejich úsudky jsou často v rozporu. Řídký, nákladný a chaotický signál.

4/ I když máte výsledky, přiřazení zápočtu se zdá být trochu brutální? Výsledek případu závisí na letech pohybů; uzdravení pacienta na desítkách zákroků. Která akce "vynesla odměnu"? RL se daří v krátkých horizontech, nikoli v institucionálních časových rámcích.

24,74K

Top

Hodnocení

Oblíbené