DApp Store | Hub da Web3 para eventos e jogos

Tópicos em alta

Todas as pessoas em choque com Rich Sutton tendo opiniões muito ruins sobre LLMs (posso ir tão longe a ponto de usar o R-slur), lembre-se de que muitos dos físicos mais antigos e prestigiados da virada do século descartaram a teoria quântica como sendo louca e errada.

O famoso ditado diz que "a ciência avança um funeral de cada vez" por um motivo. Você tem um cara velho ocasional como Kurzweil, que entende completamente (ou pelo menos entendia há alguns anos), mas geralmente é difícil para o cérebro idoso revisar radicalmente os anteriores.

Além disso, eu interajo com LLMs de várias fronteiras por 12+ horas por dia todos os dias, assim como muitos de vocês. Duvido que Sutton tenha usado intensamente esses modelos para fazer um trabalho criativo e altamente técnico nesse nível de intensidade e, portanto, não tenha o tipo de senso visceral para o que eles podem fazer.

"Uma nova verdade científica não triunfa convencendo seus oponentes e fazendo-os ver a luz, mas sim porque seus oponentes eventualmente morrem e uma nova geração cresce que está familiarizada com ela... Uma importante inovação científica raramente se manifesta conquistando e convertendo gradualmente seus oponentes: raramente acontece que Saulo se torne Paulo. O que acontece é que seus oponentes morrem gradualmente e que a geração crescente está familiarizada com as ideias desde o início: outro exemplo do fato de que o futuro está com a juventude. - Max Planck, Autobiografia científica, 1950

Aliás, parte da razão pela qual Kurzweil entendeu tudo isso claramente em sua velhice é que ele é praticamente o único (ok, talvez o clube tenha mais algumas pessoas) que previu isso consistentemente por um longo tempo. Então ele realmente não precisava revisar muito seus anteriores.

Considerando que a maioria dos "cabelos grisalhos" de IA como Sutton viveu nos primeiros dias, os puros vs desalinhados, o Debate Lighthill, AI Winter, Expert Systems, etc. Eles estão acostumados a coisas que parecem promissoras, mas não funcionam, apesar de muito hype e investimento. Esse é o anterior.

Mas a arquitetura Transformer é a primeira abstração completa de Turing totalmente diferenciável de um computador genérico universal com o nível certo de generalidade e poder expressivo, e finalmente encontramos os truques para treiná-los e ter os FLOPS e os dados para fazer tudo agora.

E, como diz Ilya, esses modelos, "eles só querem aprender". É altamente improvável a priori que tudo funcione na prática (embora talvez não porque estejamos cercados por exemplos ambulantes e falantes diariamente com muito menos de 300 watts). Mas realmente faz.

Mas mesmo assim, não é como se essa fosse uma observação sem precedentes na história da ciência. Quem poderia ter adivinhado a priori que você poderia explicar a maioria dos fenômenos físicos naturais observados ex-gravidade usando um produto direto de 3 grupos de Lie (também conhecido como Modelo Padrão da Física)?

Temos até um nome para isso: a "eficácia irracional" da matemática nas ciências naturais. Nesse caso, multiplicação de matrizes iteradas, algumas não linearidades simples e a regra da cadeia ao contrário com alguns truques para ajudar na estabilidade numérica e no fluxo do gradiente.

@goldstein_aa Tudo isso para dizer que a AGI já está aqui e é apenas por causa da movimentação incessante da trave, habilidades ruins de solicitação e perguntas bobas (que já foram amplamente resolvidas) que alguém contesta isso.

22,35K

Melhores

Classificação

Favoritos