Recentemente ocorreram duas mudanças significativas na forma como as pessoas interagem com as empresas: a web na década de 1990 e as aplicações móveis mais de uma década depois. A web disponibiliza informações e serviços ao clicar em um botão, transformando operações tradicionais em lojas físicas. Os aplicativos móveis levaram essa transformação ainda mais longe, oferecendo uma forma mais personalizada e imediata para os usuários interagirem com os serviços por meio de atualizações em tempo real, notificações push, serviços de localização e conteúdo personalizado.
Contudo, apesar destes avanços, ambos os canais permanecem relativamente estáticos. Muitas vezes, as informações que procuramos não são facilmente acessíveis. Imagine um cenário diferente: em vez de navegar em websites, utilizar sua voz para se comunicar com o site ou aplicativo, fazendo perguntas e recebendo respostas personalizadas.
Esta é a terceira mudança, onde a GenAI irá extrair as informações necessárias e apresentá-las numa combinação engajante de texto, imagens, voz e vídeo. Imagine abrir o aplicativo do seu banco e perguntar: “Quais foram minhas cinco principais despesas no mês passado?” Instantaneamente, a IA recupera os dados, apresenta um gráfico visual e fornece um breve resumo em áudio. Ou, ao comprar móveis online, forneça uma foto da sua sala, medidas e materiais preferidos. A IA responde com sugestões detalhadas de produtos com imagens, avaliações de clientes e demonstrações em vídeo.
A integração de modelos de linguagem extensivos (LLMs) em sistemas voltados para o cliente tem potencial transformador, mas existem desafios devido à tendência da IA “alucinar” , fornecendo informações plausíveis, mas incorretas. Alcançar uma interação perfeita requer repensar a abordagem de desenvolvimento e teste de software.
Redefinindo a previsibilidade nos resultados de software
Tradicionalmente, os testes de software giram em torno da previsibilidade e da confiabilidade. Dada uma entrada, a saída deve ser consistente e precisa em todos os momentos. Este paradigma foi rompido com a introdução dos LLMs, onde o mesmo input pode produzir resultados diferentes, mas contextualmente apropriados. Esta variabilidade não é muito diferente da interação humana: se fizermos duas vezes a mesma pergunta à mesma pessoa, receberemos duas respostas diferentes e igualmente válidas. Para testar e confiar nos LLMs, devemos mudar nossa perspectiva de esperar uma precisão rígida para aceitar uma precisão diferenciada.
O cérebro humano inspira redes neurais. A tendência dos LLMs de alucinar reflete o comportamento humano; Às vezes respondemos com confiança, mesmo quando estamos errados. Isso indica que as alucinações não são um bug, mas sim uma característica (não tão desejada). Embora o software tradicional vise eliminar erros, erradicar completamente as alucinações nos LLMs pode ser irrealista. Em vez disso, o nosso foco deve mudar para a minimização destes erros até um grau que nos dê confiança suficiente com base na competência demonstrada.
Quando um novo funcionário é contratado para um cargo, por exemplo, como atendimento ao cliente, não se espera que ele seja perfeito desde o primeiro dia. Em vez disso, é fornecido treinamento, o desempenho é avaliado e é permitido um período de adaptação. Da mesma forma, a integração de LLMs em cargos de atendimento ao cliente requer uma metodologia que reflita a incorporação humana. O treinamento inicial fornece à IA as ferramentas e conhecimentos necessários, seguido de avaliação contínua de desempenho e ajustes ocasionais.
Os testes LLM devem passar de resultados rígidos e determinísticos para uma estrutura baseada na confiança. Esta abordagem avalia o desempenho da IA num espectro semelhante à medição da fiabilidade humana. Por exemplo, a prontidão de um funcionário para lidar com as dúvidas dos clientes é medida através de testes e avaliações contínuas. Da mesma forma, os LLMs devem ser submetidos a testes iterativos que medem a sua capacidade de lidar com vários inputs e cenários, ajustando o nível de confiança em conformidade.
Aplicando a taxonomia de Bloom para testes de IA
A taxonomia de Bloom, um modelo introduzido em 1956, classifica os objetivos de aprendizagem educacional em níveis hierárquicos de complexidade. Podemos desenvolver e testar sistematicamente competências de IA, categorizando tarefas e objetivos em níveis, com três propósitos: identificar o nível máximo de complexidade que queremos que o LLM alcance; compreender o tipo e formato da informação que deve ser fornecida ao LLM para resolver cada nível exigido; e projetar testes que medirão sua capacidade de responder às interações para cada nível individual de complexidade.
Nível 1: Recordação: O LLM deve recuperar, reconhecer e lembrar conhecimentos relevantes de sua memória, especialmente informações transmitidas por meio de técnicas como ajuste fino ou RAG (geração aumentada de recuperação). Por exemplo, o LLM deve responder a perguntas como “Quais são as dimensões do sofá Kingston?” Para testar a capacidade do LLM de lembrar informações comerciais específicas, use testes de múltipla escolha, testes de preenchimento de lacunas, perguntas de recall e listas de fatos.
Nível 2 – Compreensão: O LLM constrói significado a partir de mensagens escritas, orais e gráficas por meio de interpretação, exemplificação, classificação, resumo, inferência, comparação e explicação. Por exemplo, pode-se esperar que você responda a perguntas como “Você pode explicar a diferença entre esses dois colchões?” Os avaliadores podem medir o uso de novos conceitos pelo LLM, pedindo-lhe para resumir ideias, explicar conceitos usando palavras alternativas e classificar textos.
Nível 3 – Aplicação: O LLM utiliza as informações aprendidas em situações novas e concretas, aplicando o conhecimento para executar tarefas, implementar soluções e demonstrar procedimentos. Uma pergunta como: “Tenho três filhos; qual conjunto de mesa de jantar seria melhor para uma família grande?” solicita ao LLM que aplique seu conhecimento do produto para recomendar uma opção adequada. Os avaliadores podem apresentar cenários práticos que exigem a aplicação de conhecimentos para avaliar a capacidade do LLM.
Nível 4: Análise: O modelo LLM divide informações complexas em suas partes constituintes, compreende relacionamentos e reconhece padrões. Por exemplo, pedir ao modelo LLM para “diga-me quais materiais são mais adequados para um dono de animal de estimação e quais itens em sua loja atendem a esses critérios” exige que ele analise as propriedades de diferentes materiais e combine-os com produtos adequados. Técnicas rápidas de engenharia, como a cadeia de pensamento, ajudam o modelo a decompor um problema em etapas e a apresentar uma resposta melhor.
Nível 5: Avaliação: O modelo LLM faz julgamentos baseados em critérios ou padrões, defendendo opiniões por meio de evidências. Por exemplo, uma pergunta como “Qual colchão tem as melhores avaliações em termos de conforto e durabilidade?” requer avaliação do conteúdo com compreensão diferenciada e julgamento subjetivo. Teste o modelo LLM pedindo que você defenda opiniões usando evidências e verificando se elas são adequadas ao contexto.
Nível 6: Criação: O modelo LLM gera novos padrões, estruturas ou modelos, como projetar uma estante personalizada para um escritório doméstico. Alcançar este nível requer vasta informação e a capacidade de transcender o conhecimento existente, algo que os atuais LLMs lutam para alcançar devido à sua dependência de dados pré-existentes.
O monitoramento e a avaliação contínuos são essenciais para manter e melhorar o desempenho da IA. Assim como um funcionário recebe avaliações periódicas e treinamento contínuo, um LLM exige atualizações e ajustes regulares para permanecer eficaz e confiável.
Uma vantagem final de usar a Taxonomia de Bloom é que ela ajuda a estabelecer a utilidade de modelos mais recentes à medida que o campo da GenAI avança. Ter uma bateria de material de treinamento e casos de teste prontos por nível pode acelerar a implementação do sistema assim que novos LLMs aparecerem. Tenha em mente que nem todos os novos modelos serão mais capazes. Alguns serão mais baratos, alguns serão mais rápidos, outros precisarão de menos memória para funcionar, etc. Os testes rápidos, organizados por camadas, podem ajudá-lo a determinar que tipo de aplicativo você pode implantar usando cada tipo de modelo.
A incorporação de LLMs em sistemas voltados para o cliente requer uma mudança de paradigma em testes de software e garantia de qualidade. Ao ver a IA como algo diferente de uma máquina perfeita, abrimos caminho para interações mais resilientes, adaptativas e semelhantes às humanas. Esta evolução nas metodologias de teste garantirá que estas possam satisfazer eficazmente as necessidades dinâmicas dos utilizadores, tal como os seus homólogos humanos. À medida que abraçamos esta nova fronteira, a nossa abordagem para testar e treinar a IA deve ser tão inovadora e adaptável quanto as tecnologias que procuramos aperfeiçoar.