Google AI Studio Challenge Submission Modelo

Esta é uma submissão para o desafio multimodal do Google AI Studio, o que eu construí o problema que ele resolve, as pessoas enfrentam o desafio diário de analisar uma coleção de ingredientes na geladeira ou despensa e se sentindo sem inspiração ou insegura sobre o que fazer. Isso geralmente leva a desperdício de alimentos ou refeições repetitivas. As pesquisas tradicionais da receita exigem que os usuários digitem manualmente os ingredientes, que podem ser tediosos e podem não capturar tudo o que está disponível. O aplicativo pega essa entrada visual e instantaneamente fornece receitas completas e prontas para fazer. Isso remove o atrito mental do planejamento de refeições e torna a cozinha mais espontânea e divertida. Ele identifica de maneira inteligente vários itens alimentares de uma imagem e gera receitas criativas e relevantes completas com instruções, tamanhos de servir e até informações nutricionais estimadas. Reduz o desperdício de alimentos: sugerindo receitas com base no que você realmente tem, o App o incentiva o livro de cozinha, com o alojamento, o que se torna um livro de cozinha, com o alojamento, o alojamento de um livro de cozinha para salvar o chão de cozinha, com o alojamento. O recurso “Receitas salvas” garante que você possa revisitar facilmente as refeições que gostou, construindo uma coleção com curadoria adaptada aos seus gostos e grampos de despensa. Na essência, o assistente de receita visual transforma a câmera do seu telefone em um parceiro culinário inteligente, tornando a descoberta de refeições, reduzindo o desperdício de alimentos e o que empenhou você para ser mais criativo na cozinha. Demoção Como eu usei o Google AI Studio Este aplicativo é um excelente exemplo de alavancagem dos poderosos recursos multimodais da API do Google Gemini, a mesma tecnologia que alimenta o Google AI Studio. Aqui está uma discriminação de como foi implementada: Capacidade multimodal central: fusão de imagem e entrada de texto O recurso central deste aplicativo é sua capacidade de entender e raciocinar de dois tipos diferentes de entrada simultaneamente: uma imagem e um prompt de texto. Esta é uma força central dos modelos de Gêmeos. Entrada de imagem (ImagePart): O usuário fornece uma fotografia de seus ingredientes. Este é o contexto visual. O modelo Gemini-2.5-Flash não vê apenas pixels; Ele realiza um reconhecimento sofisticado de objetos para identificar os itens como “tomates”, “cebolas”, “massas”, “ervas” etc. Et é o “O que eu tenho?” parte da equação. Entrada de texto (TextPart): a imagem sozinha não é suficiente. Combinei os dados visuais com um prompt de texto cuidadosamente criado: “Com base nos ingredientes nesta imagem, sugiro até 3 receitas simples. Para cada receita, forneço o nome da receita, uma lista de ingredientes com quantidades, instruções passo a passo, tamanho de porção e informação nutricional estimada (calorias, proteínas, carboidratos, e gorduras). Este prompt fornece ao modelo suas instruções – o “O que devo fazer com essas informações?” papel. Ele direciona o modelo para atuar como um chef criativo e estruturar sua resposta de uma maneira muito específica. A sinergia dessas duas modalidades permite que o modelo execute uma tarefa complexa: analisa a imagem, identifica os ingredientes e depois usa essa lista como base para uma tarefa criativa de geração de texto definida pelo prompt. Aproveitando um recurso avançado de estúdio de IA: Saída estruturada (Schema JSON) Um grande desafio ao trabalhar com grandes modelos de idiomas está obtendo uma saída formatada consistentemente que pode ser facilmente usada em um aplicativo. Recolher um bloco simples de texto exigiria análise de string frágeis e propensa a erros. Para resolver isso, aproveitei um dos recursos mais poderosos disponíveis na API Gemini, que você também pode configurar no estúdio de IA: saída estruturada. ResponsemimeType: ‘Application/JSON’: Isso informa ao modelo que espero que a saída final seja uma sequência JSON válida. Respostaschema: Esta é a parte mais crítica. Eu forneço ao modelo um esquema JSON detalhado que define a estrutura exata dos dados que eu desejo. Especifiquei que a saída deveria ser uma matriz de objetos, onde cada objeto deve conter: RECLIPENAME (uma string) Ingredientes (uma matriz de strings) Instruções (uma matriz de strings) Serviço (uma string) nutricionalinfo (um objeto com propensas a string específicas para as calorias, a proteína etc.), definindo esse esquema, forçar a forçar as forças para a manutenção da manutenção, para a manutenção, a manifestação, a proteína. Isso elimina a necessidade de análise manual e torna a integração entre a resposta da IA ​​e a interface do usuário perfeita e robusta. O aplicativo pode pegar diretamente a resposta JSON, analisá -la e renderizar os cartões de receita. Em resumo, este applet usa entrada multimodal (imagem + texto) para entender o contexto do mundo real de um usuário e aproveita a saída estruturada (Schema JSON) para transformar a resposta criativa da IA ​​em dados confiáveis ​​que alimentam uma experiência dinâmica e amigável. Recursos multimodais A funcionalidade multimodal específica que eu construí é o núcleo deste aplicativo: ele funde a entrada visual (uma imagem de ingredientes) com um prompt de texto detalhado para gerar dados JSON estruturados (receitas). Esta é uma combinação poderosa que aprimora significativamente a experiência do usuário de várias maneiras. A quebra da funcionalidade multimodal: entendimento visual (entrada da imagem): o usuário fornece uma foto de seus ingredientes disponíveis. O modelo Gemini-2.5-Flash aproveita seus sofisticados recursos de visão computacional para identificar os itens alimentares individuais na imagem. Não vê apenas uma foto; Ele entende “esses são tomates, isso é uma cebola, eu vejo uma caixa de macarrão”. Isso atua como o contexto factual e no mundo real para o contexto da solicitação. A intenção do usuário é fornecida através de um prompt de texto cuidadosamente criado que é enviado simultaneamente com a imagem. O prompt instrui o modelo a atuar como um gerador de receitas, especificando a saída desejada: “Sugira até 3 receitas simples … Forneça o nome da receita, uma lista de ingredientes com quantidades, instruções passo a passo, tamanho de servir e informações nutricionais estimadas. Ao fornecer um respostas, o texto criativo e os dados numéricos da IA ​​são organizados em um formato limpo e previsível de que o aplicativo pode analisar imediatamente e renderizar com os componentes da interface do usuário. Por que aumenta a experiência do usuário: interação intuitiva e sem esforço: o benefício primário é uma redução maciça de atrito. Em vez da tarefa tediosa de digitar manualmente uma lista de ingredientes, o usuário executa uma ação natural e simples: tirar uma foto. Isso imita perguntando a um amigo: “O que posso fazer com isso?” É mais rápido, mais envolvente e parece quase mágico. Solve um problema prático do mundo real: essa funcionalidade aborda diretamente o comum “O que é para o jantar?” dilema. Ao começar com o inventário real do usuário, as receitas geradas são imediatamente acionáveis ​​e relevantes. Isso ajuda a reduzir o desperdício de alimentos e incentiva a criatividade com ingredientes que, de outra forma, poderiam ser negligenciados. Cria uma interface do usuário confiável e polida: combinando a entrada multimodal com um esquema de saída JSON rigoroso, o aplicativo evita as armadilhas da análise de texto não estruturado. Isso garante que as receitas geradas sejam sempre exibidas em um formato limpo, consistente e fácil de ler. A interface do usuário é robusta e profissional porque a saída da IA ​​é adaptada às suas necessidades específicas, o que é uma experiência superior do usuário em comparação com a exibição de um bloco de texto bruto. Em essência, essa abordagem multimodal transforma a câmera do telefone do usuário de um dispositivo de captura de imagem simples em um poderoso assistente culinário, transformando um instantâneo do balcão de cozinha em um plano de refeição personalizado e personalizado.

Fonte

Você pode ter perdido