LeAnn: o back -end de pesquisa semântica mais leve do mundo para Rag tudo 🎉

Apresentando a mais recente criação de nossa equipe – uma abordagem revolucionária para as aplicações locais de pano TL; DR: construímos Leann, o back -end de pesquisa semântica mais “leve” do mundo que atinge 97% de economia de armazenamento em comparação com as soluções tradicionais, mantendo alta precisão e desempenho. Perfeito para aplicações de pano focado na privacidade em sua máquina local. 🚀 Início rápido Deseja experimentar agora? Execute este comando único no seu MacBook: UV PIP Install Leann Enter Modo de tela cheia Modo de tela cheia Modo 📚 Repositório e papel O que é Rag tudo? RAG (geração de recuperação de recuperação) tornou-se a primeira verdadeira “aplicação assassina” da era LLM. Ele integra perfeitamente dados privados que não faziam parte do treinamento em grandes pipelines de inferência de modelos. Os cenários de privacidade são absolutamente a direção de implantação mais importante – especialmente para seus dados pessoais e em domínios altamente sensíveis, como assistência médica e finanças. Rag tudo começa com as necessidades mais essenciais dos laptops pessoais. Suportamos de maneira nativamente um monte de cenários prontos para uso (atualmente suportando macOS e Linux, os usuários do Windows precisam do WSL): 🔍 Aplicativos suportados 1. Sistema de arquivos RAG Substitua a pesquisa de spotlight completamente. Spotlight não apenas consome espaço em disco, mas apenas a correspondência de palavras -chave. Nós o transformamos em uma potência semântica de busca. 2. O Apple Mail Rag encontra facilmente respostas para perguntas pessoais (como “quantos cursos os calouros da Berkeley EECs devem fazer no primeiro semestre?”). 3. O Rane de Histórico do Browser do Google rastreia esses vagos registros de pesquisa que você esqueceu de repente – aqueles que você só tem uma impressão difusa. 4. WeChat Chat History Rag Isso é o que eu mais uso! Eu usei LeAnn para resumir conversas com amigos e extrair idéias de pesquisa + slides. Implementamos um pequeno hack para ignorar o banco de dados criptografado do WeChat e extrair registros de bate -papo – não se preocupe, tudo permanece local com vazamento zero. 5. Aprimoramento da pesquisa semântica do Código de Claude 🔥 Um dos maiores pontos problemáticos do código de Claude é que ele está sempre gritando e não encontrando nada. LeAnn é um dos primeiros projetos de código aberto a trazer verdadeira pesquisa semântica para o Claude Code através de um servidor MCP – permitindo -o com apenas uma linha de código. Esses são apenas os cenários que achamos que têm mais “potencial” – integraremos continuamente mais recursos com base no feedback do usuário até que se torne um agente local personalizado que se lembra da memória LLM e domina todos os seus dados privados. Por que Leann? O mergulho técnico profundo do problema com os bancos de dados de vetores atuais dos bancos de dados vetores mainstream se destacam em latência – a maioria das consultas concluídas em 10ms -100ms, mesmo com milhões de pontos de dados. No pipeline de pesquisa + geração de RAG, o tempo de pesquisa está “muito abaixo” do tempo de geração, especialmente com modelos de raciocínio e processos de cadeia longa. A latência não é o gargalo em pano – o armazenamento é. O cenário de implantação de trapos mais importante é a privacidade, especialmente em computadores pessoais, onde os recursos são naturalmente escassos. Considere esta verificação da realidade: Para uma alta recall no RAB de texto, você precisa de tamanhos de pedaço fino → A incorporação de armazenamento se torna 3-10x o tamanho original do texto → Exemplo real: 70 GB de dados brutos → 220 GB+ Armazenamento de índice Nossa solução: armazenamento comercial para computar Leann faz uma opção de design em negrito: Substituir armazenamento pela recomputação. Observação-chave principal da inovação: nos índices baseados em gráficos, uma consulta realmente acessa muito poucos nós → Por que armazenar todas as incorporações? Nosso pipeline: construir um armazenamento de vetores normais excluir todas as incorporações, mantendo apenas o gráfico de proximidade para registrar os relacionamentos entre os pedaços de dados, convertem o carregamento da memória em recomputação durante a alavancagem de inferência modelos de incorporação leves para a estrutura de grafos de recomputação de grafos eficientes, observamos que os padrões significativos de visita em gráficos pós-RNG. Nossa estratégia: mantenha os nós de alto grau para garantir que o limite de conectividade limite os nós para nós de baixo grau, e permitindo que as edes ilimitadas usem heurísticas para preservar apenas os nós essenciais de alto grau que são importantes ✅ 97%+ redução do tamanho do índice <2 segundos de recuperação em hardware de 3090 anos ✅+ 90%+ storage-3 Reclimcling real em Rak. Nota: Sob essa alta taxa de compressão, PQ, OPQ e até o RabitQ de última geração não pode garantir alta precisão-comprovado em nosso artigo. Performance Optimizations Adaptive pipeline combining coarse-grained and accurate search Efficient GPU batching for better utilization ZMQ communication using distances instead of embeddings CPU/GPU overlapping Selective caching of high-degree nodes The Vision: RAG Everything We’re continuously maintaining this open-source project at Berkeley SkyLab with full-stack optimization across algorithms, applications, system design, vector databases, and Aceleração do kernel. Nossos objetivos 🎯 conectam perfeitamente todos os seus dados privados🧠 Crie memória de AI e agentes da AI de longo prazo. Posso escrever uma postagem de acompanhamento que cobre todas as especificidades de implementação, se houver interesse. Esperamos que Leann inspira mais pesquisadores de pesquisa vetorial a pensar em bancos de dados vetoriais de um ângulo diferente, especialmente em ambientes populares de pano. Tivemos a sorte de discutir nosso trabalho nos workshops Sigmod/ICML Vector Search este ano e recebemos grande reconhecimento da comunidade. Envolva -se ⭐ Estrela nosso repositório 🤝 Contribua para o projeto 🔗 Junte -se à nossa equipe de Berkeley Skylab pronta para transformar sua máquina local em uma potência de trapos? UV PIP Install Leann Enter Modo de tela cheia Modo de tela cheia que dados privados você gostaria de regar primeiro? Deixe um comentário abaixo! 👇 Tags #rag #VectordAtABase #SemanticSearch #Privacy #OPensource #MachineLearning #AI

Fonte

Publicar comentário

Você pode ter perdido