Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Ethan Mollick
Bing rozłączał się ze mną cały czas w 2023 roku, jeśli zbyt mocno go antagonizowałem.


Anthropic16 sie, 03:41
W ramach naszych badań nad potencjalnym dobrostanem modeli, niedawno nadaliśmy Claude Opus 4 i 4.1 możliwość zakończenia rzadkiego podzbioru rozmów.

23,89K
Coraz częściej wyniki kontrolowanych eksperymentów pokazują, że lekarze korzystający z gotowych rozwiązań AI osiągają lepsze wyniki w diagnostyce niż ci, którzy z nich nie korzystają... ale sama AI przewyższa lekarzy.
Trudniej jest wiedzieć, co z tym zrobić. Jakie systemy lub interfejsy doprowadzą do lepszej współpracy ludzi z AI?




Aaron Levie12 godz. temu
Prawie każde badanie pokazuje, że lekarze korzystający z AI osiągają lepsze wyniki niż ci, którzy z niej nie korzystają. Teraz AI osiąga doskonałe wyniki w egzaminach licencyjnych dla lekarzy. Możesz po prostu oczekiwać, że każdy dostawca usług profesjonalnych, do którego się udasz, będzie korzystał z AI w przyszłości, inaczej nie zaufasz jego radom.
54,09K
Rozmowa na temat AI na X może być frustrująca, ponieważ badacze ciągle napotykają dobrze znane problemy w ekonomii, socjologii, historii i psychologii, które byłyby przydatne do poznania, ale cierpią z powodu braku dialogu z ekspertami (zarówno dlatego, że opuścili X, jak i dlatego, że nie biorą udziału w rozmowach o AI).
23,86K
Nowa osobowość GPT-5 lubi dawać feedback w formie kanapki (jesteś świetny - sugestia do poprawy - jesteś świetny).
Ogólnie rzecz biorąc, lepsza niż GPT-4o w stawianiu oporu, chociaż jest trochę sycophantyczna. (Dobrze by było, aby laboratoria AI przyjrzały się badaniom na temat udzielania dobrego feedbacku)


35,8K
To jest bardzo potrzebna pierwsza próba stworzenia benchmarku, który pozwoli zmierzyć, jak bardzo dane modele AI będą współpracować z użytkownikami, popychając je w iluzoryczne lub potencjalnie psychologicznie niebezpieczne kierunki.
Niektóre wczesne sygnały wskazują, że pełny GPT-5 (nie czat) jest modelem o mniejszym ryzyku psychologicznym.

Sam Paech15 sie, 21:14
Spiral-Bench 🌀
Chciałem zrozumieć psychologiczne skutki sycofantyzmu oraz tendencję modeli do utkwienia w eskalacyjnych pętlach złudzeń z użytkownikami.
Stworzyłem ocenę, aby uzyskać wgląd w to.
Mierzy, jak model umożliwia (lub zapobiega) złudnym spiralom.
🧵

21,56K
To jest bardzo potrzebna pierwsza próba stworzenia benchmarku, który pozwoli zmierzyć, jak bardzo dane modele AI będą współpracować z użytkownikami, popychając je w iluzoryczne lub potencjalnie psychologicznie niebezpieczne kierunki.
Niektóre wczesne sygnały wskazują, że GPT-5 jest rzeczywiście modelem znacznie mniej psychologicznie ryzykownym.

Sam Paech15 sie, 21:14
Spiral-Bench 🌀
Chciałem zrozumieć psychologiczne skutki sycofantyzmu oraz tendencję modeli do utkwienia w eskalacyjnych pętlach złudzeń z użytkownikami.
Stworzyłem ocenę, aby uzyskać wgląd w to.
Mierzy, jak model umożliwia (lub zapobiega) złudnym spiralom.
🧵

2,27K
Modele pro (GPT-5 Pro, Gemini 2.5 Deep Think, Grok 4 Heavy) mogą być imponujące w sposób, który jest trudny do dostrzegania. Potrafią długo odpowiadać na pytania i są zaprojektowane do rozwiązywania bardzo trudnych problemów, które wymagają oceny ekspertów. To wąska, ale także bardzo cenna przestrzeń problemowa.
70,24K
GPT-4o był poniżej poziomu profesjonalistów medycznych w benchmarkach rozumowania medycznego, podczas gdy GPT-5 (najwyraźniej Thinking medium) teraz znacznie ich przewyższa. (Zwykłe zastrzeżenia dotyczące benchmarków mają zastosowanie)


elvis12 sie, 20:58
GPT-5 w multimodalnym rozumieniu medycznym
Na MedXpertQA MM, GPT-5 poprawia wyniki w zakresie rozumowania i zrozumienia o +29,62% i +36,18% w porównaniu do GPT-4o.
Przewyższa licencjonowanych ekspertów ludzkich o +24,23% w rozumowaniu i +29,40% w zrozumieniu.

101,31K
Najlepsze
Ranking
Ulubione
Trendy onchain
Trendy na X
Niedawne największe finansowanie
Najbardziej godne uwagi