Xai Grok 5 e Agi
Musk anunciou que o Colossus 2 de Xai será o primeiro supercomputador de treinamento da IA Gigawatt-plus do mundo e isso será usado para começar a treinar Xai Grok 5 no próximo mês (setembro de 2025). Elon diz que Colossus 2 tem uma chance não trivial de alcançar a AGI. Ele diz que Xai está perto de ter todas as peças no lugar da AGI. Uma chance não trivial é provavelmente cerca de 1-5%. AGI é pouco definida aqui como o ponto em que os debates raiva: alguns argumentam que é alcançado, outros negam. Quais são as peças essenciais para alcançar a série AGI AI Models = Xai, particularmente Grok 4, é destacada como um pioneiro nas placas de liderança LLM.Compute Colossus 2 Gigawatt-Scale em escala Gigawatt. A Xai planeja escalar de 200.000 equivalentes H100 agora para um aumento de 250x em 5 anos. Pode haver até 550.000 GPUs NVIDIA B200-B300. Avaliação de Grok 4: Pontos fortes, parâmetros de referência e comparações Grok 4 e Grok 4 se destacam em tarefas complexas e de forma longa, como codificar longamente e enfrentar problemas difíceis. É descrito como abordando tudo como se fosse um problema difícil, o que o torna mais lento para tarefas simples, mas ideal para projetos complexos. O feedback da comunidade e os testes do palestrante apoiam isso. O desenvolvedor Denny Lamensetta (possivelmente em parceria com Max Herden) usa o Grok 4 exclusivamente para o desenvolvimento de jogos, incluindo a interface do usuário via Grok Imagine, apesar de nenhum dos codificadores. Eles empregam “codificação de vibração” (processo intuitivo, assistido pela AI), produzindo resultados impressionantes. O palestrante planeja uma entrevista para explorar por que eles preferem Grok a concorrentes como Gemini 2.5 Pro ou GPT-5. Benchmarks #1 no banco de código ao vivo. – supera o Argi 2 (mais complexo que o Argi 1), mostrando “inteligência de fluido diferente de zero” por Greg Kamradt (presidente do prêmio da Fundação ARC AGI). -Inteligência fluida vs. cristalizada: LLMs tradicionalmente dependem da inteligência cristalizada (baseada na experiência) dos dados de treinamento. O GROK 4 demonstra a inteligência fluida – adaptando -se a novos problemas sem exemplos anteriores – que falam como a capacidade de aprendizado de jovens adultos humanos. Comparações com os concorrentes – vs. GPT-5: O desenvolvedor Theo (que elogiou inicialmente o GPT-5, mas depois criticou suas inconsistências) observa o GROK 4 como um modelo de topo no roteador aberto. O GPT-5 brilha no seu melhor, mas sofre com o roteamento de modelos ruins; Grok 4 “200 QIs” tudo, supercomplicando tarefas simples, tornando -as caras e lentas, mas superiores para os benchmarks. – Geral: Grok 4 lidera o raciocínio, a engenharia de software e as evalas complexas, embora nem o inadimplente de todos, devido à falta de polimento para o uso diário. – Debate da comunidade: alguns dizem que Grok fica para trás; Outros elogiam isso. O alto -falante atribui variabilidade à complexidade da tarefa. Os bastidores: paradigmas de treinamento e leis de escala Evolução do treinamento (desenhando das analogias de OpenAi se Sequoia Capital e Andrej Karpathy): pré-treinamento: como ler um livro didático-conhecimento e compactação (por exemplo, GPT-4 ERA). RLHF (Aprendizagem de reforço com o feedback humano): como problemas de exemplo resolvidos no final do capítulo-demonstrando soluções passo a passo. RL (Aprendizagem de reforço): Como problemas não resolvidos com respostas nas costas-representando e error para desenvolver estratégias. A escala RL é vista como a “próxima grande onda” do progresso da IA. Progressão da Grok Grok 2 para Grok 3: 10x Compute pré-treinamento. Grok 3 a Grok 4: 10x RL Compute na parte superior, essencialmente “Grok 3 com mais RL” (por posto do Reddit). Isso envolve a solução de bilhões de problemas, recompensando abordagens corretas. Turnos de escala: a escala de pré-treinamento está atingindo paredes-excenncialmente caras (por exemplo, US $ 1 bilhão a US $ 10b a US $ 100b). Alternativas: computação no tempo de teste: dar aos modelos mais tempo de pensamento (por exemplo, baixo/médio/alto em águas de arco) produz ganhos, mas diminui. RL SCALING: A nova curva S. O Grok 4 sugere isso no topo das paradas com treinamento pesado de RL em uma base “mais antiga” (Grok 3). Implicações futuras: e se 10x RL ainda mais ou emparelhá -lo com um modelo básico maior? As referências a zero raciocínio absoluto e Deepseek R10 sugerem que o RL pode escalar dramaticamente, inspirado no jogo próprio do AlphaGo/Alphazero (clones de professores-alunos que geram/melhoram problemas). Paisagem de computação: visualizada através de gráficos de Epoch.ai. O Colossus Fase 1 de Xai corresponde a Microsoft/OpenAI e Meta; A fase 2 os prejudica. Tesla e Google (TPUs/GPUs) são separados, mas comparáveis. Próximos desenvolvimentos XAI Open Open Sourcing: Grok 2.5 (o melhor do ano passado) agora é de código aberto; Grok 3 em ~ 6 meses. Elogiado por Sebastian Rashka por ser modelos completos de produção, não versões Lite. GROK 4.2 Esperado no Sonic Possível Sonic é GROK 4 Coding (modelo de codificação rápido, rumores via LM Arena vazamento) .Voice, geração de imagem/vídeo, GROK Finance. A visão mais ampla de Elon para a futura inferência da AI da IA: os dispositivos (por exemplo, telefones) se tornam “nós de borda” para a geração de IA em tempo real devido aos limites de largura de banda. Nenhum aplicativo/sites pré-fabricados-ai gera software/jogos/vídeos personalizados sob demanda. Exemplos: modelos de difusão como o Genie 3 do Google DeepMind (carregamento de imagem, explore como personagem); videogames em tempo real sem codificação. Use LLMS (por exemplo, Claude, Grok) para gerar scripts/ferramentas em vez de baixar aplicativos, evitando testes/assinaturas. Os impactos sociais Musk prevêem que a IA será contra -intuiva * aumentará as taxas de natalidade (e XAI a programará dessa maneira). Sistema Límbico Humano-Elon diz que a IA a filmará (sobrecarregar os instintos/emoções), mas positivamente através do aumento da taxa de natalidade. Vantagem de velocidade de Elon: os críticos ignoraram a rápida recuperação de Xai-desde a entrada tardia dos principais benchmarks. Plateau vs. Progresso- GPT-5 visto como sem parede; O RL Scaling promete avanços “selvagens”. Se falhar, o platô temporário até a próxima inovação. Brian Wang é um líder de pensamento futurista e um blogueiro de ciências popular com 1 milhão de leitores por mês. Seu blog NextBigfuture.com está classificado como #1 Blog de notícias de ciências. Abrange muitas tecnologias e tendências disruptivas, incluindo espaço, robótica, inteligência artificial, medicina, biotecnologia antienvelhecimento e nanotecnologia. Conhecida por identificar tecnologias de ponta, ele atualmente é co-fundador de uma startup e angariador de fundos para empresas em estágio inicial de alto potencial. Ele é o chefe de pesquisa de alocações para investimentos em tecnologia profunda e um investidor anjo da Space Angels. Um orador frequente das empresas, ele foi um orador do TEDX, um orador da Universidade de Singularidade e convidado em inúmeras entrevistas para rádio e podcasts. Ele está aberto a falar em público e aconselhar compromissos.
Fonte