O GPT-5 está cometendo enormes erros factuais, dizem os usuários
Faz pouco mais de um mês desde que o OpenAI caiu seu tão esperado modelo de idioma GPT-5 (LLM)-e não parou de lançar uma quantidade surpreendente de falsidades estranhas desde então. A partir de que os especialistas de IA são de um dos outros Surkd Redditors em R/Chatgpto, Chatgptepro, para o Walter Bradley, para a inteligência e a Irked Redditors em R/Chatgptopro, afirmam que o GPT-5 possui “inteligência no nível de doutorado” vem com alguns asteriscos sérios. Em um post do Reddit, um usuário percebeu que não apenas que o GPT-5 estava gerando “informações erradas sobre fatos básicos sobre a metade do tempo”, mas sem a verificação de fatos, eles podem ter perdido outras aluces. Enquanto a questão está longe de ser exclusiva para o ChatGPT, o LLM mais recente do OpenAI parece ter uma propensão específica para a BS-uma realidade que desafia a alegação da empresa de que o GPT-5 alucina menos do que seus antecessores. Em um post recente sobre os alucinações, em que a tentativa de serem mais ou menos que se destacou. Os métodos atuais de avaliação definem os incentivos errados, “o post de 5 de setembro diz. “Embora as próprias avaliações não causem alucinações diretamente, a maioria das avaliações mede o desempenho do modelo de uma maneira que incentiva a adivinhação, e não a honestidade sobre a incerteza”. Tradução: LLMS alucinando porque são treinados para acertar as coisas, mesmo que isso signifique adivinhar. Though some models, like Anthropic’s Claude, have been trained to admit when they don’t know an answer, OpenAI’s have not — thus, they wager incorrect guesses.As the Reddit user indicated (backed up with a link to their conversation log), they got some massive factual errors when asking about the gross domestic product (GDP) of various countries and were presented by the chatbot with “figures that were literally double the actual values.”Poland, for instance, was Listado como tendo um PIB de mais de dois trilhões de dólares, quando, na realidade, seu PIB, de acordo com o Fundo Monetário Internacional, está atualmente em torno de US $ 979 bilhões. Devíamos adivinhar, diríamos que essa alucinação pode ser atribuída a se orgulhar do presidente do país dizendo que sua economia (e não o seu PIB) excedeu US $ 1 trilhão. “A parte assustadora? Só notei esses erros porque algumas respostas pareciam tão desconfiadas”, o usuário continuou. “Por exemplo, quando vi números do PIB que pareciam muito altos, verifiquei duas vezes e descobri que eles estavam completamente errados.” “Isso me faz pensar: quantas vezes eu não verifico de fato e aceito a informação errada como verdade?” they mused.Meanwhile, AI skeptic Gary Smith of the Walter Bradley Center noted that he’s done three simple experiments with GPT-5 since its release — a modified game of tic-tac-toe, questioning about financial advice, and a request to draw a possum with five of its body parts labeled — to “demonstrate that GPT 5.0 was far from PhD-level expertise.”The possum example was particularly egregious, technically coming up with the Nomes certos para as partes do animal, mas fixando -os em lugares estranhos, como marcar a perna como o nariz e a cauda como o pé esquerdo traseiro. Ao tentar replicar o experimento para um post mais recente, Smith descobriu que, mesmo quando ele fez um erro de digitação-“Posse” em vez de “Possum”-o GPT-5 rotulou incorretamente as partes de uma maneira igualmente bizarra. Em vez de um giro pretendido, o LLM gerou uma imagem de uma imagem aparente de uma posse: cinco. Algumas dessas partes-a cabeça, o pé e possivelmente a orelha-eram precisas, enquanto o ombro apontava para um dos chapéus de dez galões dos Cowboys e o “fand”, que pode ser uma mistura de pé e mão, apontados para uma de suas canelas. Depois de esclarecer que o futurismo queria uma imagem rotulada e não uma descrição de texto, o Chatgpt saiu para o trabalho-e o que ela cuspiu foi, como você pode ver abaixo, ainda mais hilariante do que o que Smith ficou. Parece bastante claro que o GPT-5 é realmente um chinês. cuspir-ou desistir usando a IA e fazer a pesquisa por si mesmo. Mais no GPT-5: Após o GPT-5 desastroso, Sam Altman pivôs para aumentar o GPT-6
Fonte