Semana da AI – Google Nano Banana, Grok Code Fast e outros modelos
Vários modelos notáveis de IA foram lançados ou atualizados durante esta semana. Imagem flash Gemini 2.5 do Google (codinome: Nano Banana): Este é um modelo de geração de imagens e edição de ponta do Google DeepMind, especializado em manutenção consistente de caracteres entre imagens, edição de várias turnos e criação visual intuitiva. Ele é integrado ao aplicativo Gemini e está disponível como uma prévia da AI do Vertex para desenvolvedores. Ele se destaca em tarefas como incorporação de fundo, removendo objetos, alterando poses ou adicionando cores às fotos enquanto preservam a semelhança. O código GROK da Xai Fast 1: Um modelo especializado em codificação da XAI (construído na arquitetura Grok 4), projetado para programação baseada em agente, geração rápida de código e manuseio de tarefas complexas com uma janela de contexto de 256k, chamada de função e saídas estruturadas. Está posicionado como uma ferramenta de ponta para os desenvolvedores, mostrando uma taxa de uso 60% maior do que os concorrentes como o Claude 3,5 sonetos na codificação de referência. OpenAI GPT-REALTIME: Lançado em 28 de agosto, este é o modelo de fala para fala mais avançado do OpenAI até o momento. Ele se concentra no processamento de áudio em tempo real, permitindo interações de voz contínuas com maior latência e naturalidade. Faz parte do impulso do OpenAI na IA multimodal, construindo em seus modelos de raciocínio. Microsoft Mai-Voice-1 e MAI-1 Preview: Revelado em 29 de agosto (com anúncios por volta de 28 de agosto), esses são os primeiros modelos proprietários de IA da Microsoft desenvolvidos internamente. O Mai-Voice-1 é um modelo de fala para geração e interação de voz, enquanto a visualização do MAI-1 é um modelo baseado em texto destinado a raciocínio e tarefas gerais. O Mai-Voice-1 é a geração de áudio ultra-rápida e a visualização do MAI-1 é um modelo de linguagem grande fundamental. O Google lançou a Gemma 3 270M, um pequeno e poderoso modelo de IA projetado para ajuste fino específico da tarefa, com fortes recursos de seguidores de instrução e estrutura de texto. Está disponível pré-terenciado e ajustado a instruções e pode ser experimentado em várias plataformas, incluindo abraçar o rosto e a IA do vértice. O modelo de IA esperado é lançado nas próximas duas semanas (1 a 15 de setembro de 2025) OpenAI GPT-5 completa: enquanto inicialmente provocada no início de agosto, fontes indicam que está chegando a um lançamento mais amplo, potencialmente no início de setembro. Ele promete memória mais longa, raciocínio avançado e integração de ferramentas para tarefas complexas. Isso pode redefinir os benchmarks se lançado em breve. Integração da Meta Hypernova AI: Espera -se que os próximos óculos de AI (Hypernova) da Meta inspirem a produção em massa no terceiro trimestre de 2025 (que termina em 30 de setembro), com a IA como o principal recurso. Isso pode envolver novos modelos multimodais para fusão AR/AI, com preço de cerca de US $ 800, com remessas começando logo depois. Brian Wang é um líder de pensamento futurista e um blogueiro de ciências popular com 1 milhão de leitores por mês. Seu blog NextBigfuture.com está classificado como #1 Blog de notícias de ciências. Abrange muitas tecnologias e tendências disruptivas, incluindo espaço, robótica, inteligência artificial, medicina, biotecnologia antienvelhecimento e nanotecnologia. Conhecida por identificar tecnologias de ponta, ele atualmente é co-fundador de uma startup e angariador de fundos para empresas em estágio inicial de alto potencial. Ele é o chefe de pesquisa de alocações para investimentos em tecnologia profunda e um investidor anjo da Space Angels. Um orador frequente das empresas, ele foi um orador do TEDX, um orador da Universidade de Singularidade e convidado em inúmeras entrevistas para rádio e podcasts. Ele está aberto a falar em público e aconselhar compromissos.
Fonte