熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁

Ethan Mollick
越來越多的受控實驗結果表明:使用現成AI的醫生在診斷方面的表現優於沒有使用的醫生……但單靠AI的表現超過了醫生。
更難的是,不知道該如何處理這些結果。什麼樣的系統或界面會導致更好的人工智慧與人類團隊合作?




Aaron Levie12 小時前
幾乎每項研究都表明,使用人工智慧的醫生表現優於不使用的醫生。現在,人工智慧在醫學執照考試中取得了完美的分數。你將會期待未來你去的每一個專業服務提供者都將使用人工智慧,否則你將不信任他們的建議。
54.09K
這是一個非常必要的首次嘗試,旨在建立一個基準,以衡量給定的人工智慧模型在用戶推動它們朝向妄想或潛在心理危險方向時的表現。
一些早期信號表明,完整的GPT-5(非聊天模式)是一個心理風險較低的模型。

Sam Paech8月15日 21:14
螺旋長椅 🌀
我一直想了解諂媚的心理效應,以及模型與用戶之間陷入升級妄想循環的傾向。
我做了一個評估來對此進行可視化。
它衡量一個模型如何促進(或阻止)妄想螺旋。
🧵

21.55K
這是一個非常必要的首次嘗試,旨在建立一個基準,以衡量給定的人工智慧模型在用戶推動它們朝向妄想或潛在心理危險方向時的表現。
一些早期信號表明,GPT-5確實是一個心理風險較小的模型。

Sam Paech8月15日 21:14
螺旋長椅 🌀
我一直想了解諂媚的心理效應,以及模型與用戶之間陷入升級妄想循環的傾向。
我做了一個評估來對此進行可視化。
它衡量一個模型如何促進(或阻止)妄想螺旋。
🧵

2.27K
GPT-4o 在醫學推理基準測試中的表現低於醫療專業人員,而 GPT-5(顯然是思維中等)現在遠遠超過了他們。(通常的基準測試注意事項適用)


elvis8月12日 20:58
GPT-5在多模態醫學推理中的表現
在MedXpertQA MM上,GPT-5在推理和理解分數上比GPT-4o提高了+29.62%和+36.18%。
在推理和理解方面,它超過了預先認證的人類專家,分別提高了+24.23%和+29.40%。

101.31K
熱門
排行
收藏
鏈上熱點
X 熱門榜
近期融資
最受認可