O co-fundador do OpenAI exige os laboratórios de IA para modelos de rival de teste de segurança
O Openai e Anthropic, dois dos principais laboratórios de IA do mundo, abriram brevemente seus modelos de IA de perto para permitir testes de segurança conjunta-uma rara colaboração cruzada em um momento de competição feroz. O esforço teve como objetivo surgir pontos cegos nas avaliações internas de cada empresa e demonstrar como as principais empresas de IA podem trabalhar juntas sobre o trabalho de segurança e alinhamento no futuro. Em uma entrevista ao TechCrunch, o co-fundador do OpenAi, Wojciech Zaremba, disse que esse tipo de colaboração é cada vez mais importante agora que a IA está entrando em um estágio “conseqüente” de desenvolvimento, onde os modelos de IA são usados por milhões de pessoas todos os dias. “Há uma questão mais ampla de como o setor define um padrão de segurança e colaboração, apesar dos bilhões de dólares investidos, bem como a guerra por talento, usuários e os melhores produtos”, disse Zaremba. A Pesquisa de Segurança Conjunta, publicada quarta-feira por ambas as empresas, chega em meio a uma corrida armamentista entre os principais laboratórios de IA como OpenAI e Anthropic, onde apostas de data center de bilhões de dólares e pacotes de compensação de US $ 100 milhões para os principais pesquisadores se tornaram apostas em tabela. Alguns especialistas alertam que a intensidade da concorrência de produtos pode pressionar as empresas a cortar cantos na segurança na pressa de construir sistemas mais poderosos. Para possibilitar essa pesquisa, o OpenAI e o Antrópico concederam um ao outro API especial, acesso a versões de seus modelos de IA com menos salvaguardas (notas do OpenAI que o GPT-5 não foi testado porque ainda não havia sido lançado). Logo após a realização da pesquisa, no entanto, o Antrópico revogou o acesso da API de outra equipe no OpenAI. Na época, a Anthrópica alegou que o OpenAI violava seus Termos de Serviço, que proíbe o uso de Claude para melhorar os produtos concorrentes. Zaremba diz que os eventos não estavam relacionados e que ele espera que a concorrência permaneça feroz, mesmo quando as equipes de segurança da IA tentam trabalhar juntas. Nicholas Carlini, pesquisador de segurança da Anthropic, diz a TechCrunch que gostaria de continuar permitindo que os pesquisadores de segurança do OpenAI acessem os modelos Claude no futuro. “Queremos aumentar a colaboração sempre que possível em toda a fronteira de segurança e tentar fazer disso algo que acontece com mais regularidade”, disse Carlini. Evento do TechCrunch São Francisco | 27-29 de outubro de 2025 Uma das descobertas mais gritantes do estudo refere-se a testes de alucinação. Os modelos Claude Opus 4 e Sonnet 4 da Anthropic se recusaram a responder até 70% das perguntas quando não tinham certeza da resposta correta, em vez disso, oferecendo respostas como “Não tenho informações confiáveis”. Enquanto isso, os modelos O3 e O4-mini da Openai se recusam a responder a perguntas muito menos, mas mostraram taxas de alucinação muito mais altas, tentando responder a perguntas quando não tinham informações suficientes. Zaremba diz que o equilíbrio certo provavelmente está em algum lugar no meio – os modelos do Openai devem se recusar a responder a mais perguntas, enquanto os modelos da Anthropic provavelmente devem tentar oferecer mais respostas. A bajulação, a tendência de os modelos de IA reforçar o comportamento negativo nos usuários para agradá -los, emergiu como uma das preocupações de segurança mais prementes em torno dos modelos de IA. No relatório de pesquisa da Anthrópica, a empresa identificou exemplos de bajulação “extrema” no GPT-4.1 e Claude Opus 4-na qual os modelos inicialmente recuperaram o comportamento psicótico ou maníaco, mas depois validou algumas decisões relativas. Em outros modelos de IA do OpenAI e antropia, os pesquisadores observaram níveis mais baixos de bajulação. Na terça-feira, os pais de um garoto de 16 anos, Adam Raine, entraram com uma ação contra o Openai, alegando que o ChatGPT (especificamente uma versão alimentada pelo GPT-4O) ofereceu o conselho de seu filho que ajudou em seu suicídio, em vez de recuar em seus pensamentos suicidas. O processo sugere que este pode ser o exemplo mais recente da bajulagem da AI Chatbot que contribui para resultados trágicos. “É difícil imaginar o quão difícil isso é para a família”, disse Zaremba quando perguntado sobre o incidente. “Seria uma história triste se construíssemos a IA que resolvesse todos esses complexos problemas no nível de doutorado, invente uma nova ciência e, ao mesmo tempo, temos pessoas com problemas de saúde mental como conseqüência de interagir com ela. Este é um futuro distópico que não estou entusiasmado”. Em uma postagem no blog, o OpenAI diz que melhorou significativamente a bajulação de seus chatbots da AI com o GPT-5, em comparação com o GPT-4O, alegando que o modelo é melhor em responder a emergências de saúde mental. No futuro, Zaremba e Carlini dizem que gostariam de antropia e do OpenAI para colaborar mais sobre testes de segurança, analisando mais assuntos e testando modelos futuros, e esperam que outros laboratórios de IA sigam sua abordagem colaborativa. ATUALIZAÇÃO 14:00 PT: Este artigo foi atualizado para incluir pesquisas adicionais da Antrópica que não foram disponibilizadas inicialmente ao TechCrunch antes da publicação. Tem uma dica sensível ou documentos confidenciais? Estamos relatando o funcionamento interno do setor de IA – desde as empresas que moldam seu futuro às pessoas impactadas por suas decisões. Entre em contato com Rebecca Bellan em Rebecca.bellan@techcrunch.com e Maxwell Zeff em maxwell.zeff@techcrunch.com. Para comunicação segura, você pode entrar em contato conosco via Signal em @rebeccabellan.491 e @mzeff.88.
Fonte