Un nuevo cambio de paradigma para el testing de software en la era de la IA

En los últimos años, vivimos dos cambios trascendentales en la forma en que interactuamos con las empresas: la web en los años 90 y las apps móviles más de una década después. La web nos permitió acceder a información y servicios con un solo clic, lo que transformó las operaciones tradicionales de las tiendas físicas. Las apps móviles llevaron esta transformación un paso más allá: ofrecen a los usuarios una forma más personalizada e inmediata de relacionarse con los servicios a través de actualizaciones en tiempo real, notificaciones push, servicios de localización y contenido personalizado.

Sin embargo, a pesar de estos avances, ambos canales se mantuvieron relativamente estáticos. Muchas veces no es fácil acceder a la información que estamos buscando. Imagínate un escenario diferente: en lugar de navegar por páginas o pantallas, conversas sin problemas con el sitio web o la app, haces preguntas y recibes respuestas personalizadas. Esta es la tercera gran transformación: la IA generativa buscará la información exacta que necesitas y la presentará mediante una combinación atrapante de texto, imágenes, voz y video.

Imagina que abres la app de tu banco y preguntas: “¿Cuáles fueron mis cinco gastos más grandes del mes pasado?”. Al instante, la IA recupera los datos, presenta un gráfico visual y ofrece un breve resumen por audio. Otro ejemplo sería la compra de muebles: imagina que subes a una app una foto de tu habitación, las medidas y los materiales que prefieres. La IA puede responder con sugerencias detalladas de productos con imágenes, opiniones de clientes y demostraciones en video.

La integración de grandes modelos lingüísticos (LLM) en los sistemas orientados al cliente tiene un potencial transformador, pero existen obstáculos debido a la tendencia de la IA a alucinar y proporcionar información plausible pero incorrecta. Para lograr una interacción sin fisuras, hay que replantear el enfoque del desarrollo y el testing de software.

Redefinir la previsibilidad de los resultados del software

Tradicionalmente, el testing de software ha girado en torno a la previsibilidad y la fiabilidad. Cada prompt genera una respuesta específica, coherente y precisa en todo momento. Este paradigma se rompe con la incorporación de los LLM, que permiten que un mismo prompt pueda producir respuestas diferentes pero adecuadas al contexto. Esta variabilidad es similar a la interacción humana: si le haces la misma pregunta a la misma persona dos veces, recibirás dos respuestas diferentes e igualmente válidas. Para probar y confiar en los LLM, debemos cambiar nuestra perspectiva: hay que pasar de esperar una precisión rígida a aceptar una exactitud matizada.

El cerebro humano inspira las redes neuronales. La tendencia de los LLM a alucinar refleja el comportamiento humano: a veces respondemos con seguridad, incluso cuando nos equivocamos. Esto indica que las alucinaciones no son un error, sino una característica (no tan deseada). Si bien los programas tradicionales buscan eliminar los errores, erradicar por completo las alucinaciones en los LLM suena poco realista. En cambio, debemos centrarnos en minimizar estos errores hasta un grado que nos dé la suficiente confianza basada en la competencia demostrada.

Cuando se contrata a un nuevo empleado para un puesto como el de atención al cliente, no se espera la perfección desde el primer día. En su lugar, se imparte formación, se evalúa el rendimiento y se deja un periodo de adaptación. Del mismo modo, la integración de los LLM en funciones de cara al cliente requiere una metodología que refleje el onboarding humano. La formación inicial proporciona a la IA las herramientas y los conocimientos necesarios, seguida de una evaluación continua del rendimiento y de ajustes ocasionales.

Los LLM de testing deben pasar de resultados rígidos y deterministas a un marco basado en la confianza. Este enfoque evalúa el rendimiento de la IA en un espectro similar a la medición de la fiabilidad humana. Por ejemplo, la preparación de un empleado para atender las consultas de los clientes se mide mediante pruebas y evaluaciones continuas. Del mismo modo, los LLM deben someterse a pruebas iterativas que midan su capacidad para manejar prompts y escenarios variados, y se debe ajustar el nivel de confianza según corresponda.

Aplicación de la taxonomía de Bloom al testing de IA

La taxonomía de Bloom, un modelo presentado en 1956, clasifica los objetivos del aprendizaje educativo en niveles jerárquicos de complejidad. Podemos desarrollar y probar sistemáticamente las competencias de la IA categorizando las tareas y objetivos en niveles, lo que sirve para tres propósitos: identificar el nivel máximo de complejidad que queremos que alcance el LLM; comprender el tipo y formato de la información que hay que proporcionar al LLM para resolver cada nivel requerido; y diseñar las pruebas que medirán su capacidad de respuesta a las interacciones para cada nivel individual de complejidad.

Nivel 1 – Recordar: El LLM debe recuperar, reconocer y recordar conocimientos relevantes de su memoria, especialmente información impartida mediante técnicas como el ajuste fino o la RAG (Generación aumentada de recuperación). Por ejemplo, el LLM debe responder a preguntas como “¿Cuáles son las dimensiones del sofá Kingston?”. Para comprobar la capacidad del LLM para recordar información comercial específica, usa pruebas de selección múltiple y de completar los espacios en blanco, preguntas de memoria y listas de hechos.

Nivel 2 – Comprender: El LLM construye significados a partir de mensajes escritos, orales y gráficos mediante la interpretación, ejemplificación, clasificación, síntesis, inferencia, comparación y explicación. Por ejemplo, puedes esperar que responda a preguntas como “¿Puedes explicar la diferencia entre estos dos colchones?”. Los evaluadores pueden medir el uso que hace el LLM de nuevos conceptos pidiéndole que resuma ideas, explique conceptos utilizando palabras alternativas y clasifique textos.

Nivel 3 – Aplicar: El LLM utiliza la información aprendida en situaciones nuevas y concretas, y aplica los conocimientos para ejecutar tareas, implementar soluciones y demostrar procedimientos. Una pregunta como “Tengo tres hijos; ¿qué juego de mesa sería mejor para una familia numerosa?” lleva al LLM a aplicar su conocimiento del producto para recomendar una opción adecuada. Los evaluadores pueden presentar escenarios prácticos que requieran la aplicación de conocimientos para analizar la capacidad del LLM.

Nivel 4 – Analizar: El LLM descompone la información compleja en partes constituyentes, comprende las relaciones y reconoce patrones. Por ejemplo, pedirle al LLM que “me diga qué materiales son más adecuados para el dueño de una mascota y qué artículos de tu tienda cumplen estos criterios” requiere que analice las propiedades de distintos materiales y los relacione con los productos adecuados. Técnicas de prompt engineering como la cadena de pensamiento ayudan al modelo a descomponer un problema en pasos y presentar una respuesta mejor.

Nivel 5 – Evaluar: El LLM emite juicios basados en criterios o reglas, y defiende opiniones utilizando pruebas. Por ejemplo, una instrucción como “¿Qué colchón tiene las mejores críticas tanto por su comodidad como por su durabilidad?” requiere evaluar el contenido con una comprensión matizada y un juicio subjetivo. Testea el LLM pidiéndole que defienda opiniones utilizando pruebas y comprobando que son adecuadas al contexto.

Nivel 6 – Crear: El LLM genera nuevos patrones, estructuras o modelos, como el diseño de una estantería personalizada para una oficina en casa. Alcanzar este nivel requiere mucha información y la capacidad de trascender los conocimientos existentes, algo con lo que los LLM actuales tienen dificultades debido a su dependencia de los datos preexistentes.

El seguimiento y la evaluación continuos son fundamentales para mantener y mejorar el rendimiento de la IA. Al igual que un empleado recibe revisiones periódicas y formación continua, un LLM requiere actualizaciones y ajustes regulares para seguir siendo eficaz y fiable.

Una última ventaja de utilizar la taxonomía de Bloom es que ayuda a establecer la utilidad de modelos más nuevos a medida que avanza el campo de la IA generativa. Tener preparada una batería de material de formación y casos de prueba categorizados por niveles puede acelerar el despliegue del sistema una vez que aparezcan nuevos LLM. Ten en cuenta que no todos los nuevos modelos serán más capaces. Algunos serán menos costosos, otros más rápidos, otros necesitarán menos memoria para funcionar, etc. Las pruebas rápidas y organizadas por niveles pueden ayudarte a determinar qué tipo de aplicación puedes desplegar utilizando cada tipo de modelo.

La incorporación de los LLM a los sistemas orientados al cliente exige un cambio de paradigma en el testing de software y la garantía de calidad. Al entender que la IA no es una máquina implacable, allanamos el camino para interacciones más resilientes, adaptables y parecidas a las humanas. Esta evolución de las metodologías de testing garantizará que puedan satisfacer eficazmente las necesidades dinámicas de los usuarios como lo hacen sus homólogos humanos. A medida que nos adentramos en esta nueva era, nuestro enfoque del testing y el entrenamiento de la IA debe ser tan innovador y adaptable como las tecnologías que buscamos perfeccionar.

Suscríbete a nuestro newsletter

Recibe nuestras últimas noticias, publicaciones seleccionadas y aspectos destacados. Nunca enviaremos spam, lo prometemos.

Más de

Data & AI Studio aprovecha el poder de Big Data y la inteligencia artificial para crear nuevas y mejores experiencias y servicios, yendo más allá de la extracción de valor de los datos y la automatización. Nuestro objetivo es empoderar a los clientes con una ventaja competitiva desbloqueando el verdadero valor de la ciencia de datos y la IA para crear decisiones comerciales significativas y oportunas.