Demoção de lançamento do GPT-5 atormentada por erros catastroficamente idiotas

OpenAI’s GPT-5 is finally here and already powering ChatGPT, but it hasn’t made a great first impression.In a livestream dedicated to the release, OpenAI tried to show off its newest large language model which CEO Sam Altman called a “significant step along the path to AGI”— but instead turned heads with some catastrophically dumb errors.Across several examples, bar graphs intended to show off GPT-5’s awesome performance benchmarks, while appearing Com aparência profissional, acabou sendo um absurdo terrivelmente impreciso após a inspeção mais detalhada. As gafes foram sinalizadas nas mídias sociais e destacadas pela Verge. O exemplo mais flagrante é um gráfico de barras comparando as pontuações de referência de codificação para o GPT-5 em comparação com os modelos mais antigos. De alguma forma, a barra para a pontuação do GPT-5 de 52,8 % de precisão é quase duas vezes mais alta que a barra para uma pontuação de 69,1 % para o modelo O3. Ainda mais desconcertante, a barra de 69,1 % é exatamente do mesmo tamanho que outra barra representando 30,8 % para o GPT-4O. Faça sentido! O Openai não confirmou se usou o GPT-5 para gerar os gráficos-e, neste momento, tem todos os motivos para não-mas é um erro incrivelmente embaraçoso de uma empresa que está sendo valorizada na região de meio trilhão de trilhões de smackeroos. Também é um pouco poético. Algumas pesquisas sugerem que os modelos mais recentes podem realmente estar ficando mais burros de maneiras -chave, alucinando com mais frequência do que as versões anteriores. Um estudo descobriu que quanto mais esses novos modelos de raciocínio “pensam”, mais seu desempenho se deteriora. Outra pesquisa implica a inclinação da IA que está cada vez mais envenenando os dados de treinamento da IA. Circiando de volta ao gráfico de barras do GPT-5, você tem o Openai tentando girar sua pontuação mais baixa de 52,8 como realmente melhor que o seu antecessor.[W]Ow um mega parafuso de gráfico de nós mais cedo “, ele twittou, em seu típico patois de baixo caso.” Wen GPT-6?! “Openai corrigiu os gráficos em sua postagem no blog, mas os originais ainda estão lá na relevância do LiveStrep. perguntou o Chatgpt para desenhar um mapa de duas cidades na Virgínia com seus bairros rotulados, levando-o a devolver nomes que eram completos de Gobbledygook. Rhoder Land “ou talvez” Tonnessee “e” Mississipo? ” para trás.

Fonte

Publicar comentário

Você pode ter perdido