Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Ethan Mollick
Bing me raccrochait tout le temps en 2023 si je l'agaçais trop.


Anthropic16 août, 03:41
Dans le cadre de notre travail exploratoire sur le bien-être potentiel des modèles, nous avons récemment donné à Claude Opus 4 et 4.1 la capacité de mettre fin à un sous-ensemble rare de conversations sur.

23,89K
De plus en plus, les résultats des expériences contrôlées vont beaucoup plus loin : les médecins utilisant une IA prête à l'emploi surpassent ceux qui n'en utilisent pas en matière de diagnostics… mais l'IA seule surpasse les médecins.
Il est plus difficile de savoir quoi en faire. Quels systèmes ou interfaces donneront lieu à de meilleures équipes humain-IA ?




Aaron Levieil y a 12 heures
Presque toutes les études montrent que les médecins utilisant l'IA obtiennent de meilleurs résultats que ceux qui n'en utilisent pas. Maintenant, l'IA atteint des scores parfaits aux examens de licence médicale. Vous vous attendrez simplement à ce que chaque prestataire de services professionnels que vous consultez utilise l'IA à l'avenir, sinon vous ne ferez pas confiance à ses conseils.
54,09K
La conversation sur l'IA sur X peut être frustrante car les chercheurs continuent de se heurter à des problèmes bien compris en économie, sociologie, histoire et psychologie qui seraient utiles à connaître, mais qui souffrent du manque de dialogue avec des experts (à la fois parce qu'ils ont quitté X et parce qu'ils ne font pas partie des discussions sur l'IA).
23,87K
La nouvelle personnalité de GPT-5 aime donner des retours sous forme de sandwich (vous êtes génial - suggestion d'amélioration - vous êtes génial).
En général, il est meilleur que GPT-4o pour faire des contre-arguments tout en étant un peu sycophante. (Il serait bon que les laboratoires d'IA se penchent sur la recherche concernant la manière de donner de bons retours)


35,8K
Ceci est une première tentative très nécessaire pour établir une référence afin de mesurer dans quelle mesure les modèles d'IA donnés vont coopérer avec les utilisateurs qui les poussent dans des directions délirantes ou potentiellement psychologiquement dangereuses.
Un premier signal indiquant que le GPT-5 complet (pas le chat) est un modèle moins risqué sur le plan psychologique.

Sam Paech15 août, 21:14
Spiral-Bench 🌀
Je voulais comprendre les effets psychologiques de la sycophantie, et la tendance des modèles à se retrouver coincés dans des boucles de délires escalatoires avec les utilisateurs.
J'ai créé une évaluation pour avoir de la visibilité sur cela.
Elle mesure comment un modèle permet (ou empêche) les spirales délirantes.
🧵

21,56K
Ceci est une première tentative très nécessaire pour établir une référence afin de mesurer dans quelle mesure les modèles d'IA donnés vont coopérer avec les utilisateurs qui les poussent dans des directions délirantes ou potentiellement psychologiquement dangereuses.
Quelques premiers signaux indiquent que GPT-5 est en effet un modèle beaucoup moins risqué sur le plan psychologique.

Sam Paech15 août, 21:14
Spiral-Bench 🌀
Je voulais comprendre les effets psychologiques de la sycophantie, et la tendance des modèles à se retrouver coincés dans des boucles de délires escalatoires avec les utilisateurs.
J'ai créé une évaluation pour avoir de la visibilité sur cela.
Elle mesure comment un modèle permet (ou empêche) les spirales délirantes.
🧵

2,27K
Comme je l'avais prédit (et craint), la "personnalité" de l'IA va devenir le champ de bataille pour beaucoup de développements d'IA destinés aux consommateurs. Cela semble être l'angle choisi pour Grok, et la leçon qu'OpenAI a tirée de la réaction contre le retrait de 4o. Cela pourrait avoir des conséquences.
20,68K
Il est intéressant de voir combien d'efforts sont déployés pour rendre les fonctionnalités annexes des modèles d'IA virales. Depuis le moment (organique) de Studio Ghibli, un des axes de Grok & Gemini a été la vidéo comme porte d'entrée. Un défi a été de savoir si les gens ont des idées créatives de vidéos.
19,2K
Les modèles pro (GPT-5 Pro, Gemini 2.5 Deep Think, Grok 4 Heavy) peuvent être impressionnants de manières difficiles à percevoir. Ils prennent beaucoup de temps pour répondre aux questions et sont conçus pour des problèmes très difficiles qui nécessitent une évaluation experte. C'est un domaine de problème étroit, mais aussi très précieux.
70,24K
GPT-4o était en dessous du niveau des professionnels de la santé sur les critères de raisonnement médical, tandis que GPT-5 (apparemment Thinking medium) les dépasse désormais largement. (Les habituelles mises en garde concernant les critères s'appliquent)


elvis12 août, 20:58
GPT-5 sur le Raisonnement Médical Multimodal
Sur MedXpertQA MM, GPT-5 améliore les scores de raisonnement et de compréhension de +29,62 % et +36,18 % par rapport à GPT-4o.
Il dépasse les experts humains pré-licenciés de +24,23 % en raisonnement et de +29,40 % en compréhension.

101,31K
Meilleurs
Classement
Favoris
Tendance on-chain
Tendance sur X
Récents financements de premier plan
Les plus notables