Reflexiones sobre el estado actual de la IA en el descubrimiento de fármacos
Algunos análisis del progreso en el descubrimiento farmacéutico impulsado por IA del último año indican que ninguna de las moléculas generadas totalmente por inteligencia artificial (IA) pasaron del descubrimiento al desarrollo clínico. Si bien la IA ha acelerado el proceso de identificación de dianas farmacológicas y el descubrimiento de nuevas moléculas para interactuar con ellas, los resultados de algunos ensayos clínicos han sido decepcionantes. En 2023, las moléculas descubiertas a través de IA no cumplieron con las expectativas en los ensayos clínicos para afecciones como dermatitis atópica, esquizofrenia y cáncer.
La IA siguió siendo el tema principal de la edición de este año de J.P. Morgan Healthcare Conference y sus eventos satélites. Si bien el sentimiento creciente es que la IA hará que el desarrollo de medicamentos sea más rápido, no más barato, principalmente debido al gasto significativo asociado con el desarrollo de software y la potencia computacional, las esperanzas son altas para el papel de la IA en la investigación y el desarrollo en ciencias de la vida.
Durante un panel organizado por BCG sobre la IA generativa (genAI) en atención médica, Parminder Bhatia, Chief AI Officer en GE Healthcare, destacó las similitudes entre el rol fundamental que desempeña la IA generativa en este momento y el rol que desempeñó la computación en la nube en la última década. Él y otros panelistas, incluido el CTO de Microsoft para Healthcare & Life Sciences, John Doyle, expresaron su entusiasmo por el potencial que proviene de los modelos multimodales. Al mismo tiempo, reconocieron el desafío de mantenerse al día con una avalancha de información. Jean-Philippe Vert, Chief R&D Officer en Owkin señaló que la mayoría de las publicaciones no son revisadas por pares; cualquier persona puede publicar sus resultados en línea y se necesita mucha experiencia para separar la señal del ruido al evaluar lo que es real en el desarrollo de IA en la atención médica y las ciencias biológicas.
A medida que las tensiones entre entusiasmo y escepticismo se siguen manifestando, las organizaciones se unen para desarrollar marcos de IA responsable, en especial a la luz de los documentos de debate sobre el uso de la IA en el ciclo de vida de los productos farmacéuticos que provienen de los entes reguladores en Europa y los Estados Unidos.
En la búsqueda de un punto de vista pragmático, nos sentamos con Juan Manuel Domínguez Correa, Head of Drug Discovery and Biostatistics en Topazium, para enfocarnos en la identificación de dianas como una oportunidad para los casos prácticos de uso de IA en el descubrimiento de fármacos.
Basia Coulter (BC): Juan Manuel, antes de hablar de la aplicación de la IA en la identificación de dianas, podría ser útil definir qué entendemos por identificación de dianas.
Juan Manuel Domínguez (JMD): En el descubrimiento de fármacos, la identificación de dianas se utiliza a menudo para describir dos procesos distintos. La primera interpretación de la identificación de dianas se refiere a si una biomolécula natural desempeña un papel en una afección o enfermedad en particular. Dicha biomolécula o “diana”, se puede utilizar para desarrollar nuevos fármacos que interactúen con ella. Esta es la comprensión tradicional de la identificación de dianas.
Sin embargo, hay otro proceso, que a menudo se denomina “identificación de dianas”, pero que prefiero llamar deconvolución de dianas. La deconvolución de dianas consiste en identificar una diana para un fármaco previamente descubierto a través de un proceso conocido como pruebas de caja negra. Esto incluye todo tipo de cribado fenotípico, desde los más rudimentarios que analizan la supervivencia o muerte celular hasta los más sofisticados basados en la microscopía confocal para observar la respuesta de la célula. El desafío aquí es identificar qué proteína, ADN o biomolécula específica dentro de la célula se ve afectada por la molécula de fármaco descubierta, lo que conduce a los cambios fenotípicos observados. Este proceso de identificación es distinto del concepto tradicional de identificación de dianas. Es especialmente relevante para aquellos fármacos que se comercializan sin que aún se conozcan las dianas exactas.
BC: Cuando hablamos de descubrimiento de fármacos, la mayoría de la gente probablemente piensa inmediatamente en encontrar nuevas moléculas que puedan utilizarse como fármacos. Sin embargo, aquí no estamos hablando de descubrir fármacos per se. Más bien, estamos hablando de descubrir moléculas a las que un fármaco podría dirigirse. ¿Por qué es tan importante?
JMD: Hay más de 20.000 genes en el genoma humano, que pueden dar lugar a más de un millón de dianas potenciales a través de procesos de regulación de la expresión génica como la transcripción, el empalme alternativo, las modificaciones postraduccionales y otros mecanismos. Al tener en cuenta la estructura tridimensional (3D) de estas dianas potenciales, solo alrededor de 5.000 muestran “bolsillos” o surcos donde las moléculas pequeñas pueden unirse. Tales “bolsillos” se pueden aprovechar para unir pequeñas moléculas de fármacos, lo que hace que las dianas que las poseen obtengan “propiedades de fármaco”. Luego, de esas 5.000 potenciales dianas con propiedades de fármaco, solo unas 800 (menos del 20 %) son dianas de fármacos que actualmente se encuentran en el mercado, lo que significa que más del 80 % de las dianas con propiedades de fármaco se deben unir con moléculas. Por tanto, cualquier proteína* entre esas dianas farmacéuticas que desempeñan papeles clave en las vías de la enfermedad podría ser accesible a fármacos aún por descubrir.
[*Nota al pie: Para simplificar, usamos el término “diana” para referirnos a una proteína, aunque el ADN y/o el ARN también pueden ser dianas de moléculas de fármacos. Finalmente, la función de la proteína se ve alterada por la unión de las moléculas de fármacos (ya sea directamente o a través de ADN/ARN) y es esta proteína la que se convierte en diana funcional para un fármaco].
BC: Lo que nos estás diciendo es que sabemos, a través de una combinación de inferencia y evidencia empírica, que deben existir más de 4.000 objetivos potencialmente farmacológicos para los que aún no hemos descubierto fármacos. Eso me lleva directamente al descubrimiento de las moléculas de fármacos. ¿Por qué necesitamos dedicar más tiempo a la identificación de dianas?
JMD: Anteriormente, hablamos sobre la comprensión tradicional de la identificación de dianas como averiguar si existe una biomolécula natural que desempeña una función en una condición específica. En otras palabras, la identificación de dianas en este contexto consiste en comprender la conexión entre una biomolécula, por ejemplo, una proteína y una enfermedad, porque una biomolécula solo puede ser una diana significativa para un fármaco si contribuye al desarrollo de la enfermedad. Cuando existe esa conexión, actuar sobre esa proteína con una molécula de fármaco puede interrumpir el curso de la enfermedad.
Cuando pensamos en la identificación de dianas, el primer paso en el descubrimiento de fármacos es buscar pistas que puedan vincular una proteína determinada con una vía de enfermedad concreta.
BC: MalaCards, una base de datos de enfermedades humanas, incluye más de 22.000 entradas de enfermedades. Ese número, combinado con un total de 5.000 potenciales dianas con propiedades de fármaco y más de 4.000 que aún no son dianas de una molécula de fármaco, acumula una gran cantidad de posibles combinaciones para ir en búsqueda de pistas. ¿Cómo lo hacemos?
JMD: Las pistas se encuentran inicialmente a través de los denominados estudios “in silico” que pueden incluir la revisión de literatura científica o biomédica básica y la realización de estudios bioinformáticos o epidemiológicos.
Dado el número de dianas potenciales combinado con el número de enfermedades y posibles formas en las que la alteración de la función de las proteínas puede provocar enfermedades, encontrar pistas en estudios in silico es lento y requiere de mucho esfuerzo. Tradicionalmente, los estudios in silico los llevan a cabo investigadores que leen muchos artículos científicos o que realizan análisis de datos biológicos o médicos disponibles a través de estudios bioinformáticos o epidemiológicos. Esas pistas, o hipótesis, sobre la participación de una proteína determinada en el desarrollo de una enfermedad en particular, deben probarse posteriormente en el laboratorio a través de los denominados “estudios in vitro”.
BC: Como ex académica, estoy muy familiarizada con el nivel de esfuerzo que se dedica a revisar la literatura científica. ¿Cómo puede la IA apoyar a los investigadores en ese esfuerzo?
JMD: Esa es la primera oportunidad para aprovechar la IA, en particular la IA generativa y los modelos de lenguaje grandes (LLM). Los LLM son sistemas avanzados de inteligencia artificial diseñados para comprender, generar e interactuar con el lenguaje humano. Son “grandes” porque están entrenados con grandes cantidades de datos de texto, lo que les permite “captar” una amplia gama de patrones lingüísticos, estilos y conceptos. Son herramientas perfectamente adecuadas para rastrear la literatura científica u otros grandes conjuntos de datos en busca de pistas que vinculen las proteínas con las vías de las enfermedades.
Imagina que estás buscando proteínas potencialmente implicadas en una vía de enfermedad para la ataxia hereditaria. En lugar de hacer que un equipo de personas lea artículos que conectan la ataxia a los genes, la expresión genética y el mal funcionamiento de las proteínas, puedes implementar un LMM para que revise la literatura y recupere los hallazgos clave, comenzando con información simple, como la cantidad de veces que se menciona un gen determinado en asociación con la ataxia hereditaria. Un LLM no solo puede leer y analizar miles de artículos rápidamente, sino que además no se cansa, por lo que puede ofrecer resultados confiables sin importar la cantidad de información que analiza.
BC: Acabas de mencionar los resultados confiables. Sin embargo, se sabe que los LLM arrojan resultados creativos o alucinan, por lo que debemos reconocer que esta característica de los LLM se contradice con el rigor de la investigación científica. Permíteme hacer una breve interrupción para decir que se está avanzando en la reducción de las probabilidades de que se produzcan episodios de alucinación en los LLM. Uno de esos métodos consiste en complementar los LLM con modelos simbólicos que son fuente de previsibilidad. En Globant, también hemos estado aprovechando la generación aumentada de recuperación avanzada (RAG), que incluye la combinación de LLM con gráficos de conocimiento. También aprovechamos los modelos de código abierto.
Pero también mencionaste estudios bioinformáticos y epidemiológicos antes de volver a la identificación de objetivos y las oportunidades para aprovechar la IA. ¿Podemos hablar un poco más sobre ellos?
JMD: Los estudios bioinformáticos y epidemiológicos implican el análisis de grandes cantidades de datos biológicos o sanitarios, normalmente aplicando métodos computacionales, matemáticos y estadísticos. A través de esos estudios, podemos encontrar pistas que conectan diferentes tipos de biomoléculas con vías de enfermedades particulares. Estos tipos de estudios desempeñan un rol tanto en la identificación de dianas en el sentido tradicional (descubrir si existe una biomolécula natural que desempeña un rol en una condición específica) como en la deconvolución de dianas (identificación de dianas para fármacos que se comercializan sin que aún se conozcan las dianas exactas). Y dado que los estudios bioinformáticos y epidemiológicos involucran grandes volúmenes de datos, estos también se benefician de la aplicación de herramientas de IA.
En Topazium, por ejemplo, hemos desarrollado varios algoritmos de este tipo. Uno de ellos es un marco de aprendizaje automático (MLF) que puede analizar grandes cantidades de información clínica y genética para identificar biomarcadores genéticos asociados con bajas tasas de supervivencia. También puede encontrar nuevas dianas terapéuticas potenciales. Otra herramienta de IA que desarrollamos se basa en redes neuronales de grafos que pueden atravesar un gran mapa de interacciones moleculares dentro de la célula para explorar las interacciones de medicamentos conocidos y sus receptores naturales. Esto puede revelar nuevos puntos de intervención previamente desconocidos que podrían convertirse en objetivos adecuados.
BC: Hemos mencionado dos categorías importantes de casos de uso en los que la IA puede ayudar a los investigadores de manera significativa en el contexto de la identificación de dianas: primero, analizar, recuperar y resumir información de grandes cantidades de datos basados en texto, como la literatura científica, y segundo, hacer predicciones sobre las relaciones entre las biomoléculas y la fisiología humana, incluidas las vías de enfermedades.
Quiero mencionar otro caso de uso: el aprovechamiento de los LLM como copilotos en el análisis de datos, por ejemplo, en el análisis bioestadístico como el que se realiza en los estudios epidemiológicos. En Globant, llevamos bastante tiempo utilizando IA para crear herramientas y plataformas que ayuden a los ingenieros de software a escribir código más rápidamente. Con el auge de los LLM, estas herramientas se han vuelto aún más poderosas. Por ejemplo, los copilotos que pueden ayudar a escribir código de Python están disponibles en GitHub. Podemos mejorarlos aún más para que sean específicos de un dominio; podemos desarrollar e implementar copilotos para integraciones de CDISC o para la generación de conjuntos de datos de ADaM utilizados en el análisis de datos de ensayos clínicos. Estas herramientas ayudarán a procesar y analizar datos biomédicos de manera más rápida y eficiente.
JMD: Sí. Y esta última aplicación que mencionaste es emocionante porque permite desacoplar el acceso a la información desde la capacidad o el nivel de habilidad del usuario. En última instancia, la experiencia y el juicio de los investigadores humanos son primordiales a la hora de decidir qué líneas de investigación seguir, y nada puede reemplazar el poder creativo del cerebro humano, que es la base de la investigación y las ciencias. Sin embargo, hay mucho trabajo preliminar en el proceso de investigación que podrían hacer los investigadores menos capacitados y con menos experiencia. Creo que la búsqueda inicial de pistas entra en esa categoría y que herramientas como los copilotos impulsados por LLM podrían hacer que la participación en la investigación sea más accesible para las personas con menos formación.
BC: Hablemos brevemente de lo que ocurre cuando se encuentra una pista en el proceso de identificación de dianas.
JMD: Las pistas que se encuentran en los estudios in silico se deben confirmar en experimentos de laboratorio “in vitro”. La primera línea de evidencia confirmatoria puede provenir de experimentos in vitro que comparan los patrones de expresión de la proteína diana entre células y tejidos sanos y enfermos. Una vez que se encuentra evidencia que vincula una diana con una enfermedad, la segunda línea de investigación se lleva a cabo en modelos celulares o incluso in vivo a través de genética directa o inversa.
En el enfoque directo, se inducen mutaciones aleatorias en un organismo (una línea celular o animales simples, como moscas), seguido de una detección de los fenotipos de interés (por ejemplo, una enfermedad o afección específica). Una vez que se identifica el fenotipo de interés, los investigadores utilizan técnicas (como el mapeo genético) para identificar el gen o los genes responsables del fenotipo. En el enfoque inverso, los investigadores comienzan con un gen de interés y luego tratan de determinar qué fenotipo, si lo hay, resulta de mutar o eliminar ese gen. Otra forma de confirmar un vínculo entre una diana y una enfermedad es a través de amplios estudios genómicos y proteómicos que analizan las diferencias en los patrones de expresión de la proteína diana entre tejidos sanos y enfermos.
BC: Parece que hay más oportunidades para aprovechar la IA en el análisis de datos, especialmente cuando se discuten esos amplios estudios genómicos y proteómicos.
JDM: Exactamente. Como mencioné anteriormente, en Topazium, hemos desarrollado un marco de aprendizaje automático que analiza los datos de secuenciación del genoma para crear una representación sintética de los pacientes en un espacio latente mediante la captura de sus características genéticas más relevantes. La combinación de los conocimientos de una representación sintética de este tipo con la información clínica de la misma población de pacientes permite llegar a conclusiones que pueden utilizarse para identificar nuevas dianas terapéuticas. Otras aplicaciones de este enfoque incluyen la búsqueda de biomarcadores inexplorados, la identificación de patrones que pueden ayudar a seleccionar el tratamiento más adecuado para cada paciente en medicina personalizada o la estratificación de pacientes para ensayos clínicos.
BC: El preprocesamiento de datos viene a la mente como una oportunidad práctica para el uso de IA en el análisis de grandes volúmenes de datos. Los datos biomédicos recopilados en el mundo real son notoriamente ruidosos y desordenados, y los científicos de datos dedican más tiempo a hacer que los datos sean utilizables para el análisis que a analizar los datos. Los LLM se pueden utilizar eficazmente para preprocesar y limpiar datos. Se pueden entrenar para comprender e identificar incoherencias, errores o anomalías en los datos, como valores faltantes, valores atípicos o formatos incorrectos. Se pueden utilizar para estandarizar y normalizar los datos, asegurándose de que estén en un formato idóneo para el análisis. Por ejemplo, pueden convertir datos de texto en datos numéricos o clasificar los datos en clases predefinidas. Por lo tanto, hay muchas oportunidades para usar IA, especialmente genAI, para automatizar las tareas de preprocesamiento y limpieza. Esto nos lleva de nuevo al papel práctico que la IA puede desempeñar hoy en día para aportar eficiencia a los procesos de investigación.
JMD: Ese es un buen punto. Creo que, si bien la mirada está puesta en el futuro potencial de la IA, incluida la IA generativa, y en el rol que desempeñará en el modelado de proteínas o el diseño de fármacos, y si bien actualmente se pueden obtener beneficios del poder predictivo de la IA, la mayor oportunidad inmediata a escala proviene de las eficiencias que herramientas como los LLM pueden inyectar en los procesos de la investigación biomédica que tradicionalmente son lentos y requieren mucho esfuerzo.
BC: Gracias, Juan Manuel. Ha sido un placer hablar contigo. Personalmente, aunque reconozco que hay mucho más trabajo por hacer desde la perspectiva regulatoria y para abordar las preocupaciones éticas, estoy muy entusiasmada con las oportunidades inmediatas que tenemos hoy en día para hacer que la investigación biomédica sea más fácil, rápida y accesible. Los pacientes están esperando y no tenemos tiempo que perder.