热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲

Ethan Mollick
越来越多的受控实验结果表明:使用现成AI的医生在诊断方面的表现优于没有使用的医生……但单靠AI的表现超过了医生。
更难的是,不知道该如何处理这些结果。什么样的系统或界面会导致更好的人工智能与人类团队合作?




Aaron Levie12 小时前
几乎每项研究都表明,使用人工智能的医生表现优于不使用的医生。现在,人工智能在医学执照考试中取得了完美的分数。你将会期待未来你去的每一个专业服务提供者都将使用人工智能,否则你将不信任他们的建议。
54.09K
这是一个非常必要的首次尝试,旨在建立一个基准,以衡量给定的人工智能模型在用户推动它们朝向妄想或潜在心理危险方向时的表现。
一些早期信号表明,完整的GPT-5(非聊天模式)是一个心理风险较低的模型。

Sam Paech8月15日 21:14
螺旋长椅 🌀
我一直想了解谄媚的心理效应,以及模型与用户之间陷入升级妄想循环的倾向。
我做了一个评估来对此进行可视化。
它衡量一个模型如何促进(或阻止)妄想螺旋。
🧵

21.56K
这是一个非常必要的首次尝试,旨在建立一个基准,以衡量给定的人工智能模型在用户推动它们朝向妄想或潜在心理危险方向时的表现。
一些早期信号表明,GPT-5确实是一个心理风险较小的模型。

Sam Paech8月15日 21:14
螺旋长椅 🌀
我一直想了解谄媚的心理效应,以及模型与用户之间陷入升级妄想循环的倾向。
我做了一个评估来对此进行可视化。
它衡量一个模型如何促进(或阻止)妄想螺旋。
🧵

2.27K
GPT-4o 在医学推理基准测试中的表现低于医疗专业人员,而 GPT-5(显然是思维中等)现在远远超过了他们。(通常的基准测试注意事项适用)


elvis8月12日 20:58
GPT-5在多模态医学推理中的表现
在MedXpertQA MM上,GPT-5在推理和理解分数上比GPT-4o提高了+29.62%和+36.18%。
在推理和理解方面,它超过了预先认证的人类专家,分别提高了+24.23%和+29.40%。

101.31K
热门
排行
收藏
链上热点
X 热门榜
近期融资
最受认可