El auge de los grandes modelos lingüísticos (LLM) ha fomentado su uso transformador en diversos sectores, sobre todo para impulsar chatbots inteligentes y permitir “hablar” con datos y documentos. Bajo estos casos de uso ampliamente debatidos de los LLM se esconden capacidades más profundas. Propiedades como la selección de características, el aprendizaje zero-shot y few-shot, y la extracción de relaciones con razonamiento semántico hacen que los LLM tengan un valor incalculable para el desarrollo de aplicaciones analíticas y predictivas avanzadas, especialmente en I+D farmacéutica e investigación de pruebas del mundo real (RWE). Estas propiedades subyacentes hacen de los LLM algo más que simples modelos que predicen la probabilidad de la siguiente palabra posible en una secuencia: les permiten descubrir patrones, inferir relaciones y respaldar procesos complejos de toma de decisiones, permitiendo en última instancia el desarrollo de herramientas analíticas y de razonamiento.
Profundicemos en estas capacidades, desglosando lo que significan, por qué son importantes y cómo pueden aprovecharse para resolver retos críticos en el sector farmacéutico.
Selección de características: Priorizar las variables adecuadas
La selección de características consiste en identificar las variables (o características) más relevantes de un conjunto de datos para construir modelos predictivos. Los LLM destacan en el análisis sintáctico de grandes conjuntos de datos, aprovechando su capacidad para detectar patrones y asociaciones dentro de datos textuales o estructurados con el fin de resaltar las variables más importantes para el análisis.
La selección de características es crucial a la hora de construir modelos de predicción de enfermedades. Pensemos, por ejemplo, en la detección de enfermedades raras en poblaciones infradiagnosticadas o mal diagnosticadas. Los modelos predictivos tradicionales suelen requerir una laboriosa recopilación manual de posibles predictores a partir de conjuntos de datos estructurados, como las historias clínicas electrónicas (HCE). Al aplicar los LLM a notas clínicas no estructuradas, los investigadores pueden sacar a la superficie automáticamente características como patrones de síntomas, biomarcadores, comorbilidades, etc., para construir modelos más precisos e interpretables de predicción de enfermedades.
Del mismo modo, los LLM pueden analizar conjuntos de datos ómicos, como la genómica o la proteómica, para identificar marcadores moleculares clave correlacionados con la progresión de la enfermedad, agilizando el proceso de identificación de dianas terapéuticas. Además, los LLM pueden ayudar a estratificar a los pacientes analizando conjuntos de datos multidimensionales para identificar subpoblaciones basadas en factores genéticos, clínicos o demográficos, lo que permite realizar ensayos clínicos más específicos y eficaces.
Un estudio reciente que sugiere que el rendimiento de los LLM está a la par con las técnicas tradicionales de selección de rasgos indica que la selección de rasgos impulsada por LLM es una solución viable para acelerar la generación de hipótesis, reducir el esfuerzo manual y mejorar el rendimiento de los algoritmos predictivos.
Aprendizaje zero-shot y few-shot: Hacer más con menos datos
El aprendizaje zero-shot permite a los LLM realizar tareas para las que no han sido entrenados explícitamente, mientras que el aprendizaje few-shot permite a los modelos generalizar tareas con un mínimo de ejemplos de entrenamiento. Estas capacidades surgen del preentrenamiento de los modelos con grandes cantidades de texto, lo que los dota de una amplia comprensión contextual.
Los estudios de viabilidad de protocolos son un ejemplo convincente de aprendizaje zero-shot. El razonamiento zero-shot permite a los LLM evaluar la viabilidad del protocolo a nivel de centro mediante el análisis de los datos históricos del centro frente a los requisitos del ensayo, lo que proporciona información procesable incluso sin formación previa específica de la tarea.
El aprendizaje few-shot puede ser decisivo para generar documentos regulados, como protocolos de ensayos clínicos o folletos para investigadores. Tradicionalmente, la redacción de estos documentos requiere un esfuerzo considerable por parte de redactores médicos y expertos en la materia, seguido de revisiones iterativas. Con unos cuantos ejemplos de diseños de estudios y requisitos, un LLM puede generar borradores de protocolos, completando de antemano las secciones con contenido contextualizado y cumpliendo las normas reglamentarias.
Del mismo modo, en el contexto de la notificación de eventos adversos, los LLM pueden analizar un pequeño conjunto de casos de eventos adversos etiquetados para generar plantillas para la notificación, garantizando el cumplimiento de los marcos normativos a la vez que se capturan los detalles críticos de forma eficiente. Luego, los investigadores pueden perfeccionar estos resultados, lo que reduce significativamente el plazo de finalización.
Los LLM pueden acelerar la creación de documentos, reducir los cuellos de botella operativos y ahorrar tiempo de los expertos para actividades de mayor valor. Muchas empresas farmacéuticas han implantado LLM para la elaboración de protocolos de estudio, y algunos informes indican un ahorro significativo de tiempo y costos. Cuando se integran con sistemas de registros conformes, como Salesforce Life Sciences Cloud, los LLM se convierten en contribuyentes críticos para permitir la creación de capacidades como un creador de protocolos de estudio digital y el diseño inteligente de estudios.
Extracción de relaciones con razonamiento semántico: Mapeo del conocimiento complejo
La extracción de relaciones implica identificar y asignar conexiones entre entidades, mientras que el razonamiento semántico permite a los LLM inferir significados y relaciones basándose en el contexto. Juntas, estas capacidades permiten la extracción de información a partir de datos organizados en grafos de conocimiento (mapas estructurados de conceptos interconectados y sus relaciones) y la construcción de los propios grafos de conocimiento.
La combinación de los LLM con los grafos de conocimiento presenta el potencial de avanzar en la integración y el análisis de datos en las ciencias de la vida, brindando sustento a usos como el descubrimiento de fármacos y la investigación de RWE. Los LLM pueden automatizar la construcción de grafos de conocimiento extrayendo y organizando entidades y relaciones a partir de fuentes de datos estructuradas y no estructuradas, como publicaciones científicas, bases de datos de ensayos clínicos o sistemas de HCE, garantizando un mapeo exhaustivo de los conceptos biomédicos. Un grafo de conocimiento que capture las relaciones entre genes, vías, enfermedades y tratamientos puede ser una fuente de datos para que un LLM descubra nuevas oportunidades de reconversión de fármacos mediante la identificación de sutiles conexiones entre el mecanismo de acción de un fármaco existente y los datos emergentes sobre diferentes enfermedades.
Otro ejemplo de aplicación de la combinación de LLM con grafos de conocimiento es la generación de conocimientos a partir de fuentes de datos heterogéneas, como perfiles de toxicidad de moléculas, datos preclínicos, resultados de ensayos clínicos y literatura científica, para predecir la probabilidad de éxito de un activo en desarrollo clínico. Estas capacidades permiten a las empresas farmacéuticas tomar decisiones más informadas y oportunas, impulsando la innovación y la eficiencia.
Un futuro más allá de los chatbots
Si bien el atractivo de la IA conversacional domina la narrativa, las propiedades menos anunciadas de los LLM ofrecen un potencial transformador para la I+D farmacéutica y las RWE. Al aprovechar la selección de características, el aprendizaje zero-shot y few-shot y la extracción de relaciones, estos modelos pueden redefinir la forma de analizar los datos, tomar decisiones y desarrollar terapias.
Para aprovechar plenamente este potencial, las organizaciones deben:
- Invertir en infraestructura: La informática de alto rendimiento y la gobernanza de datos son fundamentales para implementar soluciones basadas en LLM.
- Fomentar la colaboración interdisciplinar: Unir la ciencia de los datos, la experiencia clínica y el conocimiento normativo es esencial para la verdadera innovación.
- Adoptar un enfoque iterativo: El aprendizaje y la validación continuos garantizan que los modelos cumplan los rigurosos requisitos de las aplicaciones farmacéuticas.
Al adoptar estas estrategias, las organizaciones farmacéuticas pueden ir más allá de las aplicaciones basadas en chats para aprovechar el verdadero poder analítico y predictivo de los LLM, impulsando la innovación y mejorando los resultados para los pacientes. Más información sobre el futuro de la salud y las ciencias de la vida.