A Geração Aumentada de Recuperação (RAG) combina um modelo de linguagem grande (LLM) generativo e pré-treinado com aprendizagem em contexto de recuperação aumentada. Uma base de dados de conhecimento é criada com documentos de contexto específicos de finanças incorporados em um banco de dados vetorial específico. Ao responder a uma consulta do usuário, um retriever encontra as partes relevantes usando pesquisas de similaridade vetorial e as adiciona à entrada do LLM como contexto. O RAG permite que o modelo de linguagem aproveite documentos internos da empresa além do treinamento original e ajuda os bancos a fazer melhor uso de LLMs de IA generativa. No entanto, agora está se adaptando diante da concorrência de janelas de entrada mais longas oferecidas pelos principais modelos comerciais de IA.
O papel do RAG em LLMs
- A IA generativa é frequentemente usada para ajudar o processo de negócios de um banco (por exemplo, vendas e marketing, integração, atendimento ao cliente, subscrição, processamento de transações).
- O sistema GenAI deve aproveitar setores bancários específicos e informações internas para serem mais eficazes.
- Criar um modelo sob medida é extremamente caro. O ajuste fino de um modelo de fundação existente é factível e o tornará mais adaptado à linguagem bancária, mas não permite atualizações frequentes nem informações precisas (como etapas concretas do processo e critérios de decisão)
- A Geração Aumentada de Recuperação tornou-se a solução mais comum para o problema da especialização, pois pode tornar os sistemas de IA mais adaptáveis às necessidades específicas de uma instituição financeira, aproveitando documentos internos para fornecer contexto.
- Ela funciona construindo um banco de dados vetorial contendo incorporações de dados proprietários ou específicos de domínio. Essas informações estão em manuais de produtos, perguntas frequentes, relatórios de pesquisa, guias de atendimento ao cliente e repositórios de documentos de risco, e são fragmentadas (particionadas) e incorporadas para prepará-las para inclusão no banco de dados vetoriais.
- Assim que o sistema estiver em operação, as consultas do usuário serão convertidas em vetores para recuperar informações relevantes desse banco de dados de vetores e alimentar o sistema GenAI.
- Isso aumenta a precisão e a relevância das respostas do sistema GenAI.
- A RAG reduz a necessidade de atualizar ou retreinar o modelo. Carregue os documentos ou políticas mais recentes e o modelo recupera as informações para responder à pergunta.
- O Allianz Bank Italy usou para otimizar processos baseados em conhecimento para seus consultores financeiros.
- A Natwest tem um assistente chamado Marge, que pode acessar dados em tempo real adicionados por meio de atualizações de conteúdo ou interações com clientes.
No entanto, existem alguns desafios. As implementações de RAG são complexas e podem se tornar rígidas e frágeis, portanto, exigirão manutenção significativa para se manterem funcionais ao longo do tempo, à medida que os dados de entrada e os padrões de uso mudam. Além disso, a expansão substancial na janela de entrada pelo Gemini Pro 1.5 (e em breve por seus concorrentes) permite um contexto estendido e pode tornar a necessidade de RAG menos crítica. Um sistema de IA que pode ingerir e referenciar vários documentos grandes, como manuais do usuário, normas internas ou descrições de produtos em sua janela de entrada, pode fazer com que o RAG seja percebido como desnecessário por alguns usuários.
Tanto os provedores quanto os usuários do RAG estão agora pensando em como reimaginar a relevância do RAG no novo contexto. À medida que as empresas dependem cada vez mais de LLMs para tarefas complexas que exigem a síntese de informações de vários documentos, cada um com diferentes fontes e frequências de atualização, a funcionalidade do RAG deve evoluir de acordo. Por exemplo:
- Integração com Algoritmos Avançados de Machine Learning especializados em entender contexto e relevância.
- Pesquisa semântica e técnicas aprimoradas de processamento de linguagem com análise mais sofisticada de consultas e melhor reconhecimento da intenção
- Gerenciamento de Fontes de Dados Dinâmicas com atualização de fontes de dados em tempo real
- Recuperação segura de dados e processamento de dados que protegem informações confidenciais e as entregam conforme necessário aos receptores aprovados.
As vantagens do RAG são que ele é hábil em gerenciar todo um corpo de conhecimento bancário ou de seguros, tornando-o uma solução ideal para instituições financeiras com extensa documentação e bancos de dados. Ele fornece integração perfeita com recursos de pesquisa e permite que o sistema identifique as informações mais relevantes de um vasto conjunto de dados. Adicionalmente, o RAG pode adequar as respostas às necessidades de cada processo e departamento do banco, envolvendo informações internas altamente especializadas e atualizadas com frequência.
- A capacidade de armazenar informações em cache com sistemas RAG simplifica as operações de Machine Learning e minimiza a carga computacional.
- A RAG é executada mais rapidamente, pois otimiza a recuperação de dados e reduz os tempos de processamento, enquanto janelas de contexto longas podem causar latência devido ao tempo de processamento de dados.
- Uma vez implementada, os custos operacionais de operação podem ser menores do que aqueles associados a sistemas de janelas de contexto longo.
A forma como os bancos usam a RAG mudará em breve devido à concorrência e à dinâmica tecnológica. Melhorias nos modelos de Transformadores: Por exemplo, o Google provavelmente usa RETRO (Retrieval Enhanced Transformer) ou RARR (Retrofit Attribution using Research and Revision), que integra mecanismos de recuperação diretamente dentro da estrutura do Transformer. A extração precisa e seletiva de dados aumenta a relevância do conteúdo gerado. Além disso, a eficácia dos modelos RAG depende das bases de conhecimento externas que eles usam.
A colaboração entre o RAG e uma janela de entrada mais longa poderia levar a uma melhor compreensão contextual e a uma sumarização ou análise mais precisa. Os sistemas baseados em LLM seriam então capazes de aproveitar bancos de dados grandes e complexos e melhorar a precisão de seus resultados. Mesmo com uma janela de entrada expandida, a RAG ainda pode ajudar a lidar com LLMs menores e mais eficientes, que não exigem sofisticação extra, mas precisam considerar várias fontes de informações internas. Por outro lado, um LLM com uma grande janela de entrada de dados sozinha, sem RAG, seria adequado para analisar documentos grandes, estáticos e nomeados (como livros didáticos, manuais ou leis).
No entanto, para a análise empresarial de corpos complexos de conhecimento que são distribuídos em muitos documentos e podem mudar com frequência, a combinação de RAG com um LLM de janela de entrada longa é o meio mais eficaz de gerar resultados abrangentes e perspicazes para os usuários.
O RAG ainda fará parte de futuras implementações de LLM em bancos, mas não da mesma forma que antes. A chave para a relevância contínua é maior flexibilidade, resiliência, fácil manutenção e capacidade de trabalhar em conjunto com longas janelas de contexto de dados para obter o máximo de vantagem.