DeepMind revela o Genie 3, um modelo mundial que pode ser a chave para alcançar AGI
O Google DeepMind revelou a Genie 3, seu mais recente modelo de Fundação World que o laboratório da IA diz que apresenta um trampolim crucial no caminho para a inteligência geral artificial, ou inteligência humana. “Genie 3 é o primeiro modelo mundial de propósito geral interativo em tempo real”, disse Shlomi Fruchter, diretora de pesquisa da DeepMind, durante um briefing da imprensa. “Isso vai além dos modelos mundiais estreitos que existiam antes. Não é específico para nenhum ambiente em particular. Pode gerar mundos foto-realistas e imaginários e tudo mais.” A Genie 3, que ainda está em visualização de pesquisa e não está disponível publicamente, se baseia em seu antecessor Genie 2 – que pode gerar novos ambientes para agentes – e o mais recente modelo de geração de vídeo do DeepMind VEO 3 – que exibe uma profunda compreensão da física. Créditos da imagem: Google DeepMind com um prompt de texto simples, o Genie 3 pode gerar vários minutos – acima de 10 a 20 segundos no Genie 2 – de ambientes 3D diversos, interativos, a 24 quadros por segundo, com uma resolução de 720p. O modelo também apresenta “eventos mundiais prontáveis” ou a capacidade de usar um aviso para alterar o mundo gerado. Talvez o mais importante seja que as simulações da Genie 3 permaneçam fisicamente consistentes com o tempo, porque o modelo é capaz de lembrar o que havia gerado anteriormente – uma capacidade emergente que os pesquisadores do DeepMind não programaram explicitamente o modelo. Fruchter disse que, embora o Genie 3 tenha claramente implicações para experiências educacionais e novas mídias generativas, como jogos ou prototipando conceitos criativos, seu verdadeiro desbloqueio se manifestará em agentes de treinamento para tarefas de uso geral, o que, segundo ele, é essencial para alcançar a AGI. “Achamos que os modelos mundiais são essenciais no caminho para a AGI, especificamente para agentes incorporados, onde simular cenários do mundo real é particularmente desafiador”, disse Jack Parker-Holder, cientista de pesquisa da equipe de abertura de DeepMind, durante um briefing. Evento do TechCrunch São Francisco | 27-29 de outubro de 2025 Créditos da imagem: O Google Deepmind Genie 3 foi projetado para resolver esse gargalo. Como o Veo, ele não depende de um mecanismo de física codificado. Em vez disso, ensina a si mesma como o mundo funciona – como os objetos se movem, caem e interagem – lembrando o que gerou e raciocinou durante os horizontes de longo tempo. “O modelo é auto-regressivo, o que significa que gera um quadro de cada vez”, disse Fruchter ao TechCrunch em uma entrevista separada. “Ele tem que olhar para o que foi gerado antes para decidir o que vai acontecer a seguir. Essa é uma parte essencial da arquitetura”. Essa memória cria consistência em seus mundos simulados, e essa consistência permite desenvolver uma espécie de compreensão intuitiva da física, semelhante à maneira como os humanos entendem que um vidro oscilando na beira de uma mesa está prestes a cair ou que eles devem se abaixar para evitar um objeto queda. Essa capacidade de simular ambientes coerentes e fisicamente plausíveis ao longo do tempo torna o Genie 3 muito mais do que um modelo generativo. Torna-se um campo de treinamento ideal para agentes de uso geral. Não apenas pode gerar mundos infinitos e diversos para explorar, mas também tem o potencial de levar os agentes a seus limites – forçando -os a se adaptar, lutar e aprender com sua própria experiência de uma maneira que reflete como os humanos aprendem no mundo real. Créditos da imagem: Atualmente, o Google DeepMind, a gama de ações que um agente pode executar ainda é limitado. Por exemplo, os eventos mundiais prontáveis permitem uma ampla gama de intervenções ambientais, mas elas não são necessariamente realizadas pelo próprio agente. Da mesma forma, ainda é difícil modelar com precisão interações complexas entre vários agentes independentes em um ambiente compartilhado. A Genie 3 também pode suportar apenas alguns minutos de interação contínua, quando seriam necessários horas para o treinamento adequado. Ainda assim, a Genie 3 apresenta um passo atraente para os agentes de ensino para ir além de reagir a insumos para que possam planejar, explorar, procurar incerteza e melhorar através de tentativas e erros-o tipo de aprendizado incorporado e auto-dirigido que é fundamental para avançar em direção à inteligência geral. “Ainda não tivemos um momento para agentes incorporados, onde eles podem realmente tomar novas ações no mundo real”, disse Parker-Holder, referindo-se ao momento lendário do jogo de 2016 entre a AI de DeepMind, o Alping Compening e o World Campeão Lee Sedol, em que o Alpha Go em um movimento que se tornou Brillianting. “Mas agora, podemos potencialmente inaugurar uma nova era”, disse ele.
Fonte
Publicar comentário