DApp Mağazası | Etkinlikler ve Oyunlar için Web3 Merkezi

Trend Olan Konular

Noam Brown

Akıl yürütme @OpenAI araştırma | Libratus/Pluribus insanüstü poker yapay zekaları, CICERO Diplomasi yapay zekası ve OpenAI o3 / o1 / 🍓 akıl yürütme modelleri birlikte oluşturuldu

Bu DM'i aldım: Bunu paylaştığın için teşekkür ederim - Twitter akışım giderek daha fazla dengesiz geliyor, özellikle Claude Code'un onları 10000000 kat daha verimli hale getirdiğini iddia edenler için. Kodlama asistanlarını oldukça sık kullanmama rağmen deli oluyormuşum ve çok geride kalıyormuşum gibi hissettim.

Tatil tatilinde açık kaynaklı bir poker nehir çözücüsü vibecode yaptım. Kod %100 Codex tarafından yazıldı ve karşılaştırmak için Claude Code ile bir versiyon da yaptım. Genel olarak bu araçlar, iyi bildiğim bir alanda çok daha hızlı yineleme yapmamı sağladı. Ama aynı zamanda onlara tam olarak güvenemeyeceğimi de hissettim. Hata yapar ve hatalarla karşılaşırlardı ama bunu kabul etmek yerine çoğu zaman bunun büyük bir mesele olmadığını düşünürler ya da bazen doğrudan beni hiçbir şeyin yanlış olmadığını düşünmeye çalışırlardı. Claude Code ile unutulmaz bir hata hata ayıklama oturumunda, akıl sağlığı kontrolü olarak, oyuncunun potta 100$ varsa "her zaman kapat" stratejisinin beklenen değerinin ne olacağını sordum. Algoritmasına göre elektrikli araç -93 dolar olduğunu söyledi. Bunun ne kadar garip olduğunu söylediğimde, kendi kendine bir hata olduğunu fark eder diye umdum, bana 93 doların 100 dolara yakın olduğunu ve muhtemelen sorun olmadığını söyledi. (Engelleyicileri potansiyel bir sorun olarak özellikle dikkate almasını istediğimde, algoritmanın gerçekten bunları doğru şekilde hesaba katmadığını kabul etti.) Codex bu konuda pek iyi değildi ve kendi (ilginç) belirgin hataları ve algoritmik hatalarıyla karşılaştı, bunları dikkatlice çözmek zorunda kaldım. Neyse ki, poker çözücüleri konusunda uzman olduğum için bunları çözebildim, ama yapay zeka kodlama araçlarını kullanarak bu çözücüyü başarabilecek başka çok kişi olduğunu sanmıyorum. En sinir bozucu deneyim bir arayüz oluşturmaktı. Bir düzine karşılıklı konuşmadan sonra, ne Codex ne de Claude Code istediğim ön yüzü yapamadı, ancak Claude Code en azından daha güzeldi. Ön yüz konusunda deneyimsizim, belki istediğim şey mümkün değildi, ama eğer öyleyse, keşke bana bunun zor ya da imkansız olduğunu *söyleselerdi* de, sürekli bozuk uygulamalar veya istemediğim şeyler yapmak yerine. Bu bana insan bir takım arkadaşıyla çalışmak ile bir yapay zeka ile çalışmak arasında hâlâ büyük bir fark olduğunu gösterdi. İlk uygulamalar tamamlanıp hata ayıklandıktan sonra, Codex ve Claude Code'dan optimize edilmiş C++ sürümleri oluşturmalarını istedim. Bu konuda Codex şaşırtıcı derecede iyi performans gösterdi. C++ versiyonu, Claude Code'unkinden 6 kat daha hızlıydı (daha fazla optimizasyon için birden fazla önerme verilmesine rağmen). Codex'in optimizasyonları hâlâ yapabildiğim kadar iyi değildi ama yine de 6 yıl doktora yaparak poker botları yaptım. Genel olarak, Codex bu konuda etkileyici bir iş çıkardı. Son isteğim, yapay zekalara NLTH nehirlerini daha hızlı çözebilecek yeni algoritmalar geliştirip geliştiremeyeceklerini sormaktı. Hiçbiri bunu başaramadı, bu şaşırtıcı değildi. LLM'ler hızla gelişiyor, ancak bu tür şeyler için yeni algoritmalar geliştirmek insan uzmanı için aylarca süren bir araştırma projesidir. LLM'ler henüz o seviyede değil.

Tatil tatilinde açık kaynaklı bir poker nehir çözücüsü vibecode yaptım. Kod %100 Codex tarafından yazıldı ve karşılaştırmak için Claude Code ile bir versiyon da yaptım. Genel olarak bu araçlar, iyi bildiğim bir alanda çok daha hızlı yineleme yapmamı sağladı. Ama aynı zamanda onlara tam olarak güvenemeyeceğimi de hissettim. Hata yapar ve hatalarla karşılaşırlardı ama bunu kabul etmek yerine çoğu zaman bunun büyük bir mesele olmadığını düşünürler ya da bazen doğrudan beni hiçbir şeyin yanlış olmadığını düşünmeye çalışırlardı. Claude Code ile unutulmaz bir hata hata ayıklama oturumunda, akıl sağlığı kontrolü olarak, oyuncunun potta 100$ varsa "her zaman kapat" stratejisinin beklenen değerinin ne olacağını sordum. Algoritmasına göre elektrikli araç -93 dolar olduğunu söyledi. Bunun ne kadar garip olduğunu söylediğimde, kendi kendine bir hata olduğunu fark eder diye umdum, bana 93 doların 100 dolara yakın olduğunu ve muhtemelen sorun olmadığını söyledi. (Engelleyicileri potansiyel bir sorun olarak özellikle dikkate almasını istediğimde, algoritmanın gerçekten bunları doğru şekilde hesaba katmadığını kabul etti.) Codex bu konuda pek iyi değildi ve kendi (ilginç) belirgin hataları ve algoritmik hatalarıyla karşılaştı, bunları dikkatlice çözmek zorunda kaldım. Neyse ki, poker çözücüleri konusunda uzman olduğum için bunları çözebildim, ama yapay zeka kodlama araçlarını kullanarak bu çözücüyü başarabilecek başka çok kişi olduğunu sanmıyorum. En sinir bozucu deneyim bir arayüz oluşturmaktı. Bir düzine karşılıklı konuşmadan sonra, ne Codex ne de Claude Code istediğim ön yüzü yapamadı, ancak Claude Code en azından daha güzeldi. Ön yüz konusunda deneyimsizim, belki istediğim şey mümkün değildi, ama eğer öyleyse, keşke bana bunun zor ya da imkansız olduğunu *söyleselerdi* de, sürekli bozuk uygulamalar veya istemediğim şeyler yapmak yerine. Bu bana insan bir takım arkadaşıyla çalışmak ile bir yapay zeka ile çalışmak arasında hâlâ büyük bir fark olduğunu gösterdi. İlk uygulamalar tamamlanıp hata ayıklandıktan sonra, Codex ve Claude Code'dan optimize edilmiş C++ sürümleri oluşturmalarını istedim. Bu konuda Codex şaşırtıcı derecede iyi performans gösterdi. C++ versiyonu, Claude Code'unkinden 6 kat daha hızlıydı (daha fazla optimizasyon için birden fazla önerme verilmesine rağmen). Codex'in optimizasyonları hâlâ yapabildiğim kadar iyi değildi ama yine de 6 yıl doktora yaparak poker botları yaptım. Genel olarak, Codex bu konuda etkileyici bir iş çıkardı. Son isteğim, yapay zekalara NLTH nehirlerini daha hızlı çözebilecek yeni algoritmalar geliştirip geliştiremeyeceklerini sormaktı. Hiçbiri bunu başaramadı, bu şaşırtıcı değildi. LLM'ler hızla gelişiyor, ancak bu tür şeyler için yeni algoritmalar geliştirmek insan uzmanı için aylarca süren bir araştırma projesidir. LLM'ler henüz o seviyede değil.

En İyiler

Sıralama

Takip Listesi