Como os algoritmos de recuperação moldam melhores respostas de LLM?

Introdução na era do LLMS, especificamente na geração de recuperação de recuperação (RAG), os algoritmos de recuperação desempenham um dos papéis mais importantes. Quanto melhores os resultados da recuperação, melhor o contexto fornecido ao LLM e melhor as respostas que ele gera. O método de recuperar informações também é a espinha dorsal dos mecanismos de pesquisa. No entanto, este blog fala apenas sobre a recuperação especificamente para fornecer contexto ao LLMS. A maneira como funciona é classificando documentos com base em sua relevância para a consulta especificada. Os algoritmos de recuperação podem ser classificados com base em como a pontuação de relevância é calculada. Uma pontuação de relevância é uma medida numérica que indica o quão bem uma informação corresponde a uma determinada consulta. Os dois métodos comuns de recuperação são: recuperação baseada em termos e recuperação baseada em incorporação. A recuperação baseada em termos, como o nome sugere, a recuperação baseada em termos usa as palavras-chave da consulta para encontrar os documentos mais relevantes. No entanto, essa abordagem pode ter problemas. Muitos documentos podem conter a mesma palavra -chave. Nem todo documento pode se encaixar na janela de contexto do LLM. Como resultado, o documento com o contexto útil real pode não ser incluído. Uma abordagem simples é incluir o documento que contém a palavra -chave o maior número de vezes. O número de vezes que um termo aparece no documento é chamado de frequência de termo (TF). Uma consulta pode conter várias palavras -chave, das quais algumas são mais importantes que outras. A importância de cada palavra -chave é inversamente proporcional ao número de documentos em que aparece. Quanto mais documentos uma palavra -chave aparecer, menos importante se torna. Essa métrica é chamada de frequência inversa de documentos (IDF). Matematicamente, IDF = (número total de documentos) ÷ (número de documentos que contêm a palavra -chave). Um valor IDF mais alto indica maior importância da palavra -chave. O algoritmo conhecido que combina essas duas métricas, a frequência a termo (TF) e a frequência inversa de documentos (IDF), é TF-IDF. A recuperação baseada em recuperação baseada em incorporação está focada em palavras-chave, em vez de significado, o que pode resultar na recuperação de documentos irrelevantes. Por outro lado, a recuperação baseada em incorporação classifica documentos com base em quão perto eles se alinham com a consulta em termos de significado semântico. Com a recuperação baseada em incorporação, a indexação envolve uma etapa adicional: converter documentos em incorporação. As incorporações são vetores de alta dimensão que preservam propriedades importantes dos dados originais. Essas incorporações são então armazenadas em um banco de dados especializado chamado banco de dados vetorial. Para saber mais sobre incorporações, recomendo conferir meu outro blog, que explica como o texto é convertido em incorporação e como a recuperação é realizada usando a similaridade de cosseno, uma das técnicas de recuperação mais comuns baseadas em incorporação. Comparar a recuperação baseada em termos baseada em termos e incorporação baseada em termos é geralmente mais rápida do que a recuperação baseada em incorporação durante o armazenamento (indexação) e busca (consulta). No entanto, a recuperação baseada em incorporação pode melhorar significativamente a qualidade da recuperação ao longo do tempo. Duas métricas frequentemente usadas no RAG para avaliar a qualidade de um retriever são: contextPrecision = relemAntRetrievedDocumentsAllretrievedDocuments Contexto Precision = \ Frac {relevante Documentos RELEVERNRETRINGRERTRERTRERTRERTINGUMENTES} contextPrecision = AllRetriEdDocumAldDocumentDocumentsReTRERTRERTRIEVEDUMENTES} contextPrecision = AllRetriEdDocOldDoclocUmAldDocumentsReTRERTRERTRIEVEDUMENTS} contextPrecision = AllReTrieVedDocOldDoclodDocumentDOnTRetRerTRERTEdDocument} RECORNDO DE CONTEXTO = \ FRAC {Documentos recuperados relevantes} {todos os documentos relevantes} contextrecall = allRelevantDocumentsRelevTretrieVedDocuments. Outra consideração é o custo. A geração de incorporações requer recursos de computação e geralmente envolve custos de API. Além disso, dependendo do banco de dados vetorial, o armazenamento vetorial e as consultas de pesquisa vetorial também podem ser caras. A combinação de métodos de recuperação que combina ambos os algoritmos de recuperação é chamada de pesquisa híbrida. Existem duas abordagens comuns: combinação seqüencial: primeiro, use a recuperação baseada em termos para buscar todos os documentos que contêm a palavra-chave. Em seguida, use a recuperação baseada em incorporação para re-classificar esses documentos com base no significado semântico. Combinação paralela: Ambos os métodos de recuperação são executados em paralelo. Cada um produz um ranking de documentos por relevância. Os resultados são mesclados ou comparados para gerar uma classificação final. A pesquisa híbrida permite alavancar os pontos fortes de ambas as abordagens: a velocidade da pesquisa de palavras -chave e a profundidade semântica das incorporações. Citação Este blog é inspirado no tópico “Algoritmos de recuperação” no livro “AI Engineer”, de Chip Huyen. Esta é uma breve introdução ao tópico. Para saber mais em detalhes, recomendo me referir ao livro.

Fonte

Você pode ter perdido