Relatório de acidente de estrada – assistente de IA

Este é um envio para o desafio multimodal do Google AI Studio, o que eu construí, construí o assistente de acidentes da IA, um aplicativo da Web sofisticado projetado para resolver um grande problema do mundo real: o estresse, a confusão e o processo propenso a criar um relatório de acidente de veículo na beira da estrada. Um acidente é um evento caótico. A última coisa que alguém deseja é copiar manualmente as informações enquanto tenta recuperar detalhes sob pressão. Meu aplicativo transforma essa experiência. Um usuário simplesmente: tira fotos de documentos oficiais (carteira de motorista, apólice de seguro). Captura a cena com fotos ou vídeos. Registra um breve memorando de voz descrevendo o que aconteceu. O assistente de IA assume o controle, processando essas evidências multimídia para gerar um relatório de acidentes completo, preciso e pré-preenchido. A saída final é um pacote de evidências seguro e organizado (.ZIP) contendo um relatório formal de HTML, o esboço gerado pela IA e todos os arquivos de mídia originais, prontos para submissão a uma companhia de seguros. Applet de demonstração implantado: a demonstração mostra a viagem de usuário completa e pontual: Configuração: O usuário é recebido por uma página de destino limpa e, em seguida, seleciona a jurisdição do relatório (por exemplo, Reino Unido, Califórnia) e idioma. Upload: o usuário envia todas as suas evidências – documentos, fotos de cena e instruções de áudio para cada motorista envolvido. Eles também podem usar o GPS do dispositivo para registrar o local do acidente. Verificação movida a IA: O usuário analisa o rascunho gerado pela IA. Se a IA tiver dúvidas devido a dados ausentes ou conflitantes, ela apresentará uma interface de bate -papo conversacional para esclarecimento. O usuário também pode ajustar visualmente o diagrama SVG gerado pela AI e revisar um esboço artístico separado da cena. Download: Depois de assinar digitalmente e fornecer consentimento, o usuário baixa o pacote de evidências final. Como eu usei o Google AI Studio O núcleo deste aplicativo é alimentado por uma cadeia de sistemas multimodais sofisticados enviados aos modelos Gemini 2.5 Flash e Imagen 4.0 do Google. Eu projetei um fluxo de trabalho de AI em várias etapas dentro do aplicativo: Extração de dados (Gemini): a primeira chamada envia todos os arquivos de mídia (imagens, áudio) junto com dados contextuais (como a localização GPS) para Gemini. Aproveitei o modo de saída JSON nativo de Gemini, fornecendo um esquema rigoroso, garantindo uma resposta de dados confiável e estruturada que preenche o rascunho do relatório. Geração de diagrama interativo (Gêmeos): Um segundo prompt direcionado pede Gemini para analisar as fotos da cena e extraiu dados para gerar um diagrama SVG limpo e interativo do acidente. O prompt instrui explicitamente o modelo a usar IDs específicos do grupo () para tornar os elementos do diagrama arrastar na interface do usuário. Geração de esboço (Imagen): Uma terceira chamada envia um prompt descritivo para a Imagen, que gera um esboço esquemático de cima para baixo e em preto e branco do acidente, fornecendo uma representação visual alternativa para o relatório final. Esclarecimento de conversação (Gêmeos): Se falta informações, o aplicativo inicia um loop de conversação. As respostas de texto do usuário são enviadas de volta a Gemini com os dados atuais do relatório e o modelo atualiza inteligentemente o JSON com as novas informações. A multimodal apresenta os recursos multimodais dos modelos de IA do Google são a base da experiência do usuário deste aplicativo. Entendimento de imagem (documentos e cena) O que ele faz: Gemini analisa documentos oficiais para extrair detalhes -chave e interpreta simultaneamente as fotos da cena para entender as condições da estrada, as posições do veículo e os pontos de impacto. Por que é melhor: isso elimina a entrada manual de dados, reduz o erro humano e economiza tempo crítico. A IA é solicitada a detectar e sinalizar documentos ilegíveis ou embaçados, dando ao usuário a chance de reiniciar uma melhor precisão. Inteligência de áudio (memorandos de voz) O que faz: o usuário pode gravar um memorando de voz descrevendo o acidente. Gêmeos transcreve a afirmação e referências cruzadas a narrativa com evidências visuais das fotos. Por que é melhor: isso oferece uma maneira natural de os usuários fornecerem sua declaração enquanto os eventos são frescos. A capacidade da IA ​​de verificar contradições é um poderoso recurso de validação que garante um relatório mais verdadeiro. Geração inteligente (diagrama SVG e esboço de PNG) o que ele faz: o aplicativo aproveita os gêmeos e o Imagen para gerar dois auxiliares visuais distintos: um diagrama SVG limpo e interativo para ajustes precisos e um desenho simples e fácil de entender. Por que é melhor: isso fornece aos usuários várias maneiras de visualizar o incidente. O diagrama SVG interativo, em particular, capacita o usuário a ajustar a saída da IA, criando um processo de construção de relatórios colaborativos que leva a um documento final altamente preciso.

Fonte

Você pode ter perdido