Os incentivos ruins são culpados pelas alucinações da IA?
Um novo artigo de pesquisa do OpenAI pergunta por que grandes modelos de idiomas como GPT-5 e chatbots como ChatGPT ainda alucinam e se algo pode ser feito para reduzir essas alucinações. Em uma postagem no blog resumindo o artigo, o OpenAI define alucinações como “declarações plausíveis, mas falsas geradas pelos modelos de idiomas”, e reconhece que, apesar das melhorias, as alucinações “continuam sendo um desafio fundamental para todos os grandes modelos de idiomas” – que nunca será completamente eliminado. Para ilustrar o ponto, os pesquisadores dizem que, quando perguntaram “um chatbot amplamente usado” sobre o título de Ph.D. de Adam Tauman Kalai. Dissertação, eles obtiveram três respostas diferentes, todas elas erradas. (Kalai é um dos autores do jornal.) Eles então perguntaram sobre seu aniversário e receberam três datas diferentes. Mais uma vez, todos estavam errados. Como um chatbot pode estar tão errado – e soa tão confiante em sua erro? Os pesquisadores sugerem que surgem alucinações, em parte, por causa de um processo pré -treinamento que se concentra em fazer com que os modelos prevejam corretamente a próxima palavra, sem rótulos verdadeiros ou falsos ligados às declarações de treinamento: “O modelo vê apenas exemplos positivos de linguagem fluente e devem se aproximar da distribuição geral”. “Ortografia e parênteses seguem padrões consistentes; portanto, os erros desaparecem com a escala”, escrevem eles. “Mas fatos arbitrários de baixa frequência, como o aniversário de um animal de estimação, não podem ser previstos apenas por padrões e, portanto, levam a alucinações”. A solução proposta pelo artigo, no entanto, se concentra menos no processo inicial de pré -treinamento e mais sobre como os modelos de linguagem são avaliados. Argumenta que os modelos atuais de avaliação não causam alucinações, mas “estabelecem os incentivos errados”. Os pesquisadores comparam essas avaliações com o tipo de teste de múltipla escolha, adivinhação aleatória faz sentido, porque “você pode ter sorte e estar certo”, deixando a resposta em branco “garante um zero”. Evento do TechCrunch São Francisco | 27-29 de outubro de 2025 “Da mesma maneira, quando os modelos são classificados apenas com precisão, a porcentagem de perguntas que eles acham exatamente, eles são incentivados a adivinhar, em vez de dizer ‘eu não sei'”, dizem eles. A solução proposta, então, é semelhante aos testes (como o SAT) que incluem “negativo [scoring] Para respostas erradas ou crédito parcial por deixar perguntas em branco para desencorajar a adivinhação cegada. ” Da mesma forma, o OpenAI diz que as avaliações do modelo precisam “penalizar mais erros confiantes do que você penaliza a incerteza e dar crédito parcial por expressões apropriadas de incerteza”. E os pesquisadores argumentam que não é suficiente introduzir “alguns novos testes de consciência da incerteza ao lado”. Em vez disso, “os Evals baseados em precisão amplamente utilizados precisam ser atualizados para que a pontuação desencoraja a adivinhação”. “Se os principais placares continuarem recompensando suposições da sorte, os modelos continuarão aprendendo a adivinhar”, dizem os pesquisadores.
Fonte