トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Ethan Mollick
Bing は 2023 年も、私があまりにも敵対すると、いつも電話を切りました。


Anthropic8月16日 03:41
潜在的なモデル福祉に関する探索的作業の一環として、私たちは最近、Claude Opus 4 と 4.1 に、 での会話のまれなサブセットを終了する機能を与えました。

23.89K
制御された実験の結果はますますさらに進んでいます:既製のAIを持つ医師は、診断に従わない医師よりも優れています...しかし、AIだけでは医師を凌駕する。
それをどうしたらいいのかわかりにくい。どのようなシステムやインターフェースが人間とAIのチームをより良くするのでしょうか?




Aaron Levie12時間前
ほとんどすべての研究で、AI を使用している医師は、使用していない医師よりも優れたパフォーマンスを発揮することが示されています。現在、AI は医師免許試験で満点を達成しています。将来、すべてのプロフェッショナル サービス プロバイダーが AI を使用することを期待するか、アドバイスを信頼しないでしょう。
54.09K
これは、ユーザーが妄想的または潜在的に心理的に危険な方向に押し込むのと、与えられた AI モデルがどれだけ機能するかを測定するためのベンチマークで非常に必要とされている最初の試みです。
完全なGPT-5(チャットではない)が心理的にリスクの低いモデルであるという初期の兆候。

Sam Paech8月15日 21:14
スパイラルベンチ 🌀
私は、お世辞の心理的影響と、モデルがユーザーとのエスカレートする妄想ループに陥る傾向を理解したいと思っていました。
私はこれについて可視化するために評価を作成しました。
モデルが妄想スパイラルをどのように可能にする(または防止する)かを測定します。
🧵

21.56K
これは、ユーザーが妄想的または潜在的に心理的に危険な方向に押し込むのと、与えられた AI モデルがどれだけ機能するかを測定するためのベンチマークで非常に必要とされている最初の試みです。
GPT-5 が実際に心理的にリスクがはるかに低いモデルであることを示す初期の兆候があります。

Sam Paech8月15日 21:14
スパイラルベンチ 🌀
私は、お世辞の心理的影響と、モデルがユーザーとのエスカレートする妄想ループに陥る傾向を理解したいと思っていました。
私はこれについて可視化するために評価を作成しました。
モデルが妄想スパイラルをどのように可能にする(または防止する)かを測定します。
🧵

2.27K
GPT-4o は、医療推論ベンチマークでは医療専門家のレベルを下回っていましたが、GPT-5 (明らかに思考媒体) は現在、彼らをはるかに上回っています。(通常のベンチマークの注意事項が適用されます)


elvis8月12日 20:58
マルチモーダル医学的推論に関するGPT-5
MedXpertQA MMでは、GPT-5はGPT-4oよりも推論と理解のスコアを+29.62%、+36.18%向上させています。
推論で +24.23%、理解で +29.40% の事前ライセンスを取得した人間の専門家を上回っています。

101.31K
トップ
ランキング
お気に入り
Trending onchain
Trending on X
Recent top fundings
Most notable