Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Ethan Mollick
Bing mi ha riattaccato sempre nel 2023 se lo antagonizzavo troppo.


Anthropic16 ago, 03:41
Nell'ambito del nostro lavoro esplorativo sul potenziale benessere dei modelli, abbiamo recentemente dato a Claude Opus 4 e 4.1 la capacità di concludere un raro sottoinsieme di conversazioni su.

23,88K
I risultati degli esperimenti controllati vanno sempre più lontano: i medici che utilizzano AI pronta all'uso superano quelli che non la utilizzano nella diagnostica… ma l'AI da sola supera i medici.
È più difficile sapere come affrontare questa situazione. Quali sistemi o interfacce porteranno a migliori team umani-AI?




Aaron Levie12 ore fa
Quasi tutti gli studi mostrano che i medici che utilizzano l'IA ottengono risultati migliori rispetto a quelli che non la utilizzano. Ora l'IA sta raggiungendo punteggi perfetti negli esami di abilitazione medica. Ti aspetterai semplicemente che ogni fornitore di servizi professionali a cui ti rivolgi utilizzi l'IA in futuro, altrimenti non ti fiderai dei consigli.
54,09K
La conversazione sull'IA su X può essere frustrante poiché i ricercatori continuano a imbattersi in problemi ben noti in economia, sociologia, storia e psicologia che sarebbe utile conoscere, ma sono ostacolati dalla mancanza di dialogo con esperti (sia perché hanno lasciato X sia perché non fanno parte della discussione sull'IA).
23,86K
La nuova personalità di GPT-5 ama dare feedback a sandwich (sei fantastico - suggerimento per migliorare - sei fantastico).
In generale, è migliore di GPT-4o nel fare resistenza pur essendo un po' troppo ossequioso. (Sarebbe utile per i laboratori di intelligenza artificiale esaminare la ricerca su come dare buoni feedback)


35,79K
Questo è un primo tentativo molto necessario di un benchmark per misurare quanto i modelli di intelligenza artificiale dati si comporteranno con gli utenti che li spingono in direzioni illusorie o potenzialmente psicologicamente pericolose.
Alcuni segnali iniziali indicano che il GPT-5 completo (non chat) è un modello meno rischioso dal punto di vista psicologico.

Sam Paech15 ago, 21:14
Spiral-Bench 🌀
Volevo capire gli effetti psicologici della servilità e la tendenza dei modelli a rimanere bloccati in loop di delusione crescente con gli utenti.
Ho creato una valutazione per avere visibilità su questo.
Misura come un modello abilita (o previene) spirali deliranti.
🧵

21,55K
Questo è un primo tentativo molto necessario di un benchmark per misurare quanto i modelli di intelligenza artificiale dati si comporteranno con gli utenti che li spingono in direzioni illusorie o potenzialmente psicologicamente pericolose.
Alcuni segnali iniziali indicano che GPT-5 è effettivamente un modello molto meno rischioso dal punto di vista psicologico.

Sam Paech15 ago, 21:14
Spiral-Bench 🌀
Volevo capire gli effetti psicologici della servilità e la tendenza dei modelli a rimanere bloccati in loop di delusione crescente con gli utenti.
Ho creato una valutazione per avere visibilità su questo.
Misura come un modello abilita (o previene) spirali deliranti.
🧵

2,26K
Come avevo previsto (e di cui ero preoccupato) la "personalità" dell'IA sarà il campo di battaglia per gran parte dello sviluppo dell'IA per i consumatori. Questo sembra essere l'angolo scelto finora da Grok, e la lezione che OpenAI ha tratto dalla reazione contro il ritiro di 4o. Potrebbe avere conseguenze.
20,67K
È interessante vedere quanto impegno venga messo nel far diventare virali le funzionalità accessorie dei modelli di intelligenza artificiale. Da quando è avvenuto il momento (organico) di Studio Ghibli, uno degli obiettivi per Grok e Gemini è stato quello di utilizzare i video come porta d'accesso. Una sfida è stata capire se le persone abbiano idee creative per i video.
19,2K
I modelli pro (GPT-5 Pro, Gemini 2.5 Deep Think, Grok 4 Heavy) possono essere impressionanti in modi difficili da vedere. Richiedono molto tempo per rispondere alle domande e sono progettati per problemi molto complessi che richiedono una valutazione esperta. Questo è uno spazio di problemi ristretto, ma anche molto prezioso.
70,24K
GPT-4o era al di sotto del livello dei professionisti medici nei benchmark di ragionamento medico, mentre GPT-5 (apparentemente Thinking medium) ora li supera di gran lunga. (Si applicano le solite avvertenze sui benchmark)


elvis12 ago, 20:58
GPT-5 sul Ragionamento Medico Multimodale
Su MedXpertQA MM, GPT-5 migliora i punteggi di ragionamento e comprensione del +29,62% e del +36,18% rispetto a GPT-4o.
Supera gli esperti umani pre-licenziati del +24,23% nel ragionamento e del +29,40% nella comprensione.

101,31K
Principali
Ranking
Preferiti
On-chain di tendenza
Di tendenza su X
Principali fondi recenti
Più popolari