DeepMind acha que seu novo modelo Genie 3 World apresenta um trampolim em direção a Agi
O Google DeepMind revelou a Genie 3, seu mais recente modelo de Fundação World que pode ser usado para treinar agentes de IA de uso geral, uma capacidade que o laboratório da IA diz proporcionar um trampolim crucial no caminho para “inteligência geral artificial” ou inteligência humana. “Genie 3 é o primeiro modelo mundial de propósito geral interativo em tempo real”, disse Shlomi Fruchter, diretora de pesquisa da DeepMind, durante um briefing da imprensa. “Isso vai além dos modelos mundiais estreitos que existiam antes. Não é específico para nenhum ambiente em particular. Pode gerar mundos foto-realistas e imaginários e tudo mais.” Ainda em visualização de pesquisa e não está disponível ao público, a Genie 3 se baseia em seu antecessor Genie 2 (que pode gerar novos ambientes para agentes) e o mais recente modelo de geração de vídeo do DeepMind, VEO 3 (que se diz ter um profundo entendimento da física). Créditos da imagem: Google DeepMind com um prompt de texto simples, o Genie 3 pode gerar vários minutos de ambientes 3D interativos a uma resolução de 720p a 24 quadros por segundo – um salto significativo dos 10 para 20 segundos que o Genie 2 pode produzir. O modelo também apresenta “eventos mundiais prontáveis” ou a capacidade de usar um aviso para alterar o mundo gerado. Talvez o mais importante seja que as simulações da Genie 3 permaneçam fisicamente consistentes ao longo do tempo, porque o modelo pode lembrar o que gerou anteriormente – uma capacidade que o DeepMind diz que seus pesquisadores não programaram explicitamente o modelo. Fruchter disse que, embora o Genie 3 tenha implicações para experiências educacionais, jogos ou prototipagem de conceitos criativos, seu verdadeiro desbloqueio se manifestará em agentes de treinamento para tarefas de uso geral, que ele disse ser essencial para alcançar a AGI. “Achamos que os modelos mundiais são essenciais no caminho para a AGI, especificamente para agentes incorporados, onde simular cenários do mundo real é particularmente desafiador”, disse Jack Parker-Holder, cientista de pesquisa da equipe de abertura de DeepMind, durante o briefing. Evento do TechCrunch São Francisco | 27-29 de outubro de 2025 Créditos da imagem: O Google Deepmind Genie 3 é supostamente projetado para resolver esse gargalo. Como o Veo, ele não depende de um motor de física codificado; Em vez disso, diz Deepmind, o modelo ensina a si mesma como o mundo funciona – como os objetos se movem, caem e interagem – lembrando o que ele gerou e raciocínio durante os horizontes de longo tempo. “O modelo é auto-regressivo, o que significa que gera um quadro de cada vez”, disse Fruchter ao TechCrunch em uma entrevista. “Ele tem que olhar para o que foi gerado antes para decidir o que vai acontecer a seguir. Essa é uma parte essencial da arquitetura”. Essa memória, diz a empresa, concede à consistência nos mundos simulados da Genie 3, que por sua vez permite desenvolver uma compreensão da física, semelhante à maneira como os humanos entendem que um vidro oscilando na beira de uma mesa está prestes a cair ou que eles devem se esquivar para evitar um objeto queda. Notavelmente, Deepmind diz que o modelo também tem o potencial de levar os agentes de IA para seus limites – forçando -os a aprender com sua própria experiência, semelhante à maneira como os humanos aprendem no mundo real. Como exemplo, a DeepMind compartilhou seu teste do Genie 3 com uma versão recente de seu agente multiworld instrutável escalável (SIMA), instruindo -o a buscar um conjunto de metas. Em um cenário de armazém, eles pediram ao agente que executasse tarefas como “Aborde o compactador de lixo verde brilhante” ou “Caminhe até a empilhadeira vermelha lotada”. “Nos três casos, o agente SIMA é capaz de atingir a meta”, disse Parker-Holder. “Ele apenas recebe as ações do agente. Assim, o agente assume a meta, vê o mundo simulado em torno dele e depois toma as ações no mundo. Genie 3 simula adiante, e o fato de ser capaz de alcançá -lo é porque o Genie 3 permanece consistente”. Créditos da imagem: Google DeepMind, dito, o Genie 3 tem suas limitações. Por exemplo, enquanto os pesquisadores afirmam que pode entender a física, a demonstração mostrando um esquiador de uma montanha não refletia como a neve se moveria em relação ao esquiador. Além disso, o intervalo de ações que um agente pode executar é limitado. Por exemplo, os eventos mundiais prontáveis permitem uma ampla gama de intervenções ambientais, mas elas não são necessariamente realizadas pelo próprio agente. E ainda é difícil modelar com precisão interações complexas entre vários agentes independentes em um ambiente compartilhado. A Genie 3 também pode suportar apenas alguns minutos de interação contínua, quando seriam necessários horas para o treinamento adequado. Ainda assim, o modelo apresenta um passo atraente para os agentes de ensino para ir além de reagir a insumos, permitindo que eles planejem, explorem, busquem incerteza e melhorem por meio de tentativas e erros-o tipo de aprendizado incorporado e auto-incorporado que muitos dizem ser essencial para avançar em direção à inteligência geral. “Ainda não tivemos um momento para agentes incorporados, onde eles podem realmente tomar novas ações no mundo real”, disse Parker-Holder, referindo-se ao momento lendário do jogo de 2016 entre a AI de DeepMind, o Alping Compening e o World Campeão Lee Sedol, em que o Alpha Go em um movimento que se tornou Brillianting. “Mas agora, podemos potencialmente inaugurar uma nova era”, disse ele.
Fonte
Publicar comentário