Generación de datos sintéticos en contextos de salud y ciencias biológicas. ¿Ya estamos ahí?

 En nuestro blog anterior, exploramos el concepto de brazos de control sintéticos (o externos), una técnica que está revolucionando el diseño de ensayos clínicos. Este innovador enfoque aprovecha datos preexistentes o que inicialmente no estaban destinados a un estudio específico, como los datos que se encuentran en los registros médicos electrónicos (EHR), abriendo nuevas posibilidades en el campo. Sin embargo, a medida que nos adentramos más en este tema, surgieron preocupaciones importantes; por ejemplo, preguntas sobre cómo manejar datos incompletos o cómo garantizar la privacidad del paciente. La generación de datos sintéticos es una de las herramientas más poderosas que tenemos a nuestra disposición para cerrar estas brechas. 

Datos sintéticos

En un mundo donde el aprendizaje automático, el aprendizaje profundo, la IA generativa, y las redes neuronales están en boca de todos, una tendencia revolucionaria está tomando protagonismo: la generación de datos sintéticos. A medida que la inteligencia artificial continúa creciendo sin precedentes, la era de los datos sintéticos o artificiales emerge como una tendencia innovadora, cautivando tanto las mentes de los entusiastas de la tecnología como de los expertos en datos. 

Por datos sintéticos se entienden los datos generados artificialmente que imitan las propiedades estadísticas y características de los datos del mundo real (RWD), y su objetivo principal es proporcionar un sustituto de RWD cuando preocupaciones de privacidad o limitaciones de datos obstaculizan el uso de la información original. Nos permite realizar pruebas, análisis y modelado sin correr el riesgo de exponer información confidencial o violar las normas de privacidad.

Métodos para  la generación de datos sintéticos

El proceso de generación emplea varias técnicas, como modelos estadísticos o matemáticos, aprendizaje automático o aprendizaje profundo. 

Los modelos matemáticos tienen como objetivo producir un modelo estadístico del conjunto de datos o el proceso subyacente que explica la variación en los datos. Estos incluyen modelos de procesos gaussianos, simulaciones de Monte Carlo, muestreo de modelos probabilísticos y suavizado de densidad del núcleo. Algunas ventajas de utilizar este enfoque son la explicabilidad de los resultados, la eficiencia computacional y la combinación con un área temática de conocimiento. Sin embargo, debido a que puede basarse en suposiciones o modelos incorrectos, es difícil crear datos falsos, producir la parametrización correcta y representar patrones y relaciones complejas. 

La siguiente mejor técnica para generar conjuntos de datos sintéticos es el aprendizaje automático, donde el modelo necesita consumir un conjunto de datos del mundo real para aprender patrones y luego aprovechar esa información para crear nuevos datos basados ​​en lo que ha aprendido. Los modelos de aprendizaje automático hacen menos suposiciones que los modelos matemáticos. Algunas herramientas de esta categoría son los modelos de árbol de decisión, los modelos de síntesis basados ​​en agrupaciones y los modelos bayesianos ingenuos. Algunos aspectos favorables del aprendizaje automático son la captura de muchos patrones y relaciones, el modelado basado en datos y la facilidad de automatizar y escalar a grandes conjuntos de datos. No obstante, se necesita la entrada de datos reales preprocesados ​​para entrenar al modelo; son computacionalmente intensivos y no poseen ninguna explicabilidad. 

El aprendizaje profundo, una forma más compleja de inteligencia artificial, se basa en tener varias capas de redes neuronales trabajando juntas de forma iterativa para aprender de grandes conjuntos de datos de entrada. Estas redes conectan las propiedades emergentes de las capas siguientes para comprender los patrones y cómo se crean en los datos. Algunos ejemplos de redes neuronales son los modelos de lenguaje grande (LLM), las redes generativas adversarias (GAN), y los transformadores y los codificadores automáticos variacionales (VAE). Estas técnicas pueden aprender y sintetizar relaciones muy complejas, trabajar con diversos tipos de conjuntos de datos (generalmente necesarios para conjuntos de datos de salud), hacer menos suposiciones y entrenarse para optimizar tanto la utilidad como la privacidad de los datos simultáneamente. Pero, tienen algunas desventajas. Requieren un conjunto de datos inicial muy grande (a veces preprocesado) para funcionar, pueden ser propensos al sobreajuste, son muy exigentes desde el punto de vista computacional y tienen una menor explicabilidad. 

Recientemente, las GAN se han destacado como uno de los modelos más favorecidos. Sobresalen en la generación de datos sintéticos resilientes, capturando tendencias efectivamente a partir de datos del mundo real sin sobreajustar las muestras sintetizadas. El sobreajuste puede ocurrir cuando los datos generados se parecen mucho o se vuelven casi idénticos a los datos del mundo real, lo que plantea desafíos para la preservación de la privacidad, ya que algunos ejemplos sintéticos podrían imitar fielmente el RWD.

En la visión por computadora, la cual permite a las computadoras interpretar información visual del mundo y realizar procesos como reconocimiento de imágenes, detección de objetos y segmentación de imágenes, los modelos de difusión -y, particularmente, los modelos de difusión latente- son las técnicas actuales para generar datos sintéticos. Se trata de una clase de modelos generativos que pueden capturar la distribución subyacente de datos y tomar muestras de ella para crear ejemplos de datos nuevos y realistas. Estos modelos suelen utilizar un proceso de refinamiento iterativo para generar muestras de alta calidad.

Aplicaciones de datos sintéticos en la atención sanitaria 

Como mencionamos antes, crear un brazo de control externo directamente desde RWD tiene sus ventajas, pero conlleva preocupaciones sobre el uso de dichos datos. Los datos sintéticos encuentran diversas aplicaciones en el ámbito sanitario y pueden ayudar a mitigar estos retos. Entre los casos de uso clave, los principales son el entrenamiento de modelos de aprendizaje automático y la protección de la privacidad. Varios grupos han utilizado datos generados sintéticamente para aumentar los datos reales y muestrear eventos o patrones raros, mejorando la precisión y diversidad de los modelos de IA. Los datos sintéticos también son valiosos para probar software antes de acceder a RWD, ya que permiten a los científicos perfeccionar su código sin comprometer la privacidad ni perder tiempo.

  • Protección de la privacidad: la información del paciente es muy sensible y los métodos tradicionales de desidentificación pueden no proporcionar protección infalible contra las filtraciones de privacidad. Una de las soluciones es generar datos sintéticos que reproduzcan poblaciones sin vínculos directos con individuos en muestras reales. Los datos sintéticos pueden reducir significativamente el riesgo de divulgación de identidad cuando se implementan correctamente, ofreciendo mayor protección que los conjuntos de datos de población real. Esta protección de la privacidad puede mejorar la confianza de los pacientes en las prácticas de intercambio de datos.
  • Promoción del intercambio de datos: las preocupaciones regulatorias y éticas pueden obstaculizar el intercambio de datos en el sector sanitario, lo que provoca retrasos en el acceso a los conjuntos de datos y en su aprobación. Los datos sintéticos presentan una alternativa atractiva, que imita conjuntos de datos reales y, al mismo tiempo, preserva información valiosa, como correlaciones de características y distribuciones de parámetros. Estos datos se pueden aprovechar para modelos estadísticos, estudios de generación de hipótesis y fines educativos.
  • Aumento de datos: en aplicaciones médicas, el tamaño limitado de los datos es un desafío común, debido a la participación de expertos altamente capacitados en la recopilación y anotación de datos. La generación de datos sintéticos es una técnica poderosa de aumento de datos que incrementa el tamaño de los conjuntos de datos sin recopilación de datos reales adicionales. La combinación de datos sintéticos con RWD durante el entrenamiento del modelo ML permite a los profesionales de la salud optimizar la extracción de información estadística y mejorar la precisión del diagnóstico, lo que, en última instancia, beneficia la atención del paciente.
  • Aumento de la representación: los algoritmos de aprendizaje automático pueden presentar sesgos cuando se entrenan en conjuntos de datos con clases desequilibradas, lo que genera un rendimiento deficiente para las poblaciones subrepresentadas. Al incorporar datos sintéticos de grupos subrepresentados, los modelos de aprendizaje automático pueden mejorar el desempeño de cada subgrupo y, en última instancia, conducir a soluciones de atención médica más equitativas y efectivas.

Algunas organizaciones ya ofrecen conjuntos de datos sintéticos, como Simulacrum. En particular, este proyecto ofrece datos sintéticos sobre el cáncer que imitan algunos de los datos conservados de forma segura por el Servicio Nacional de Registro y Análisis del Cáncer (NCRAS) dentro del Servicio Nacional de Salud (NHS) Digital del Reino Unido. El Simulacrum se ve y se siente como los datos reales sobre el cáncer incluidos en NCRAS, pero no contiene ninguna información real del paciente. Cualquiera puede utilizarlo para aprender más sobre el cáncer en Inglaterra sin comprometer la privacidad del paciente. 

Ventajas y desventajas de datos sintéticos en la atención sanitaria

Los datos sintéticos ofrecen varios beneficios importantes. Minimizan las restricciones asociadas con datos regulados o confidenciales, facilitan la personalización para que coincida con condiciones que RWD pueden no permitir y posibilitan la generación de grandes conjuntos de datos de entrenamiento sin etiquetado manual. Además, los datos sintéticos ayudan a abordar las preocupaciones sobre la privacidad y reducen los sesgos en comparación con el RWD. Sin embargo, es importante señalar que la calidad de los datos sintéticos depende, en gran medida, de la calidad y cantidad de los datos originales y del modelo de generación de datos. Asimismo, es posible que los datos sintéticos no capturen valores atípicos presentes en el mundo real y reflejen sesgos inherentes a los datos originales. 

Otra consideración importante es el potencial de colapso modal en los modelos generativos para la creación de datos sintéticos. Estos modelos están diseñados para capturar la distribución subyacente de los datos originales y generar nuevas muestras a partir de ellos. Sin embargo, el colapso modal puede ocurrir cuando el modelo se centra solo en unos pocos modos, lo que resulta en una falta de diversidad en las muestras sintéticas. Garantizar un conjunto de datos de capacitación diverso y representativo es crucial para abordar este problema, así como implementar técnicas de regularización y explorar enfoques como la combinación de fuentes de datos. La unión de estas estrategias ayuda a mitigar el riesgo de colapso del modo y garantiza un proceso de generación de datos sintéticos más rico y realista. En otras palabras, la calidad del conjunto de datos de entrenamiento inicial determinará directamente la calidad del resultado.  

Abordar los desafíos

Evaluar la calidad de los datos médicos sintéticos es vital. El foco principal debe ponerse en tres aspectos clave: fidelidad, diversidad y generalización. La fidelidad examina la semejanza entre sintético y RWD, evaluando si se pueden distinguir y si se pueden hacer inferencias poblacionales. La diversidad explora qué tan bien cubren a toda la población del mundo real los datos sintéticos. La generalización se relaciona con la privacidad, determinando si las muestras de datos sintéticos son réplicas de RWD.

La protección de la privacidad es crucial y se pueden emplear varias métricas para evaluar el riesgo de privacidad de los conjuntos de datos sintéticos. Para lograr un equilibrio entre privacidad y transparencia, se debe decidir qué aspectos del proceso de generación compartir públicamente, ya que divulgar modelos totalmente entrenados puede aumentar los riesgos a la privacidad. Una de las alternativas propuestas es el aprendizaje federado, que permite la creación de datos sintéticos desde múltiples sitios, manteniendo el sensible RWD local. La privacidad diferencial es otro enfoque que proporciona un grado predecible de protección de la privacidad, pero su implementación puede ser un desafío y la reducción de su utilidad puede variar.

Evitar el aumento del sesgo debido al RWD es otra gran preocupación. Los datos sintéticos son propensos a heredar sesgos del conjunto de datos subyacente del mundo real, lo que podría aumentarlos. Es esencial evaluar el sesgo y la equidad en el conjunto de datos antes de su publicación, para garantizar que no se ignoren los grupos subrepresentados y que las correlaciones no se confundan con causalidad.

Equilibrar estos aspectos es esencial para crear datos sintéticos de alta calidad y protegidos por la privacidad, garantizando que su potencial se aproveche de manera responsable en la atención médica.

La promesa de datos sintéticos en la atención sanitaria

Si bien el uso de datos sintéticos aún no se ha adoptado ampliamente en la atención médica y la investigación clínica, su implementación exitosa en otras industrias, como el sector financiero, indica su potencial. La rápida adopción en las finanzas puede atribuirse a las implicaciones menos graves de los errores, mientras que la asistencia sanitaria requiere un enfoque más cauteloso, debido al posible impacto en la salud de los pacientes. Sin embargo, a medida que el progreso tecnológico aborde estos retos, el futuro se llena de oportunidades. Los datos sintéticos pueden revolucionar la investigación sanitaria, fortalecer las medidas de privacidad, mejorar la formación de modelos y allanar el camino para muchos más avances.

Temas populares
Data & AI
Finance
Globant Experience
Healthcare & Life Sciences
Media & Entertainment
Salesforce

Suscríbete a nuestro newsletter

Recibe nuestras últimas noticias, publicaciones seleccionadas y aspectos destacados. Nunca enviaremos spam, lo prometemos.

Healthcare & Life Sciences Studio tiene como objetivo reinventar el ecosistema de la industria de las ciencias de la vida a través de soluciones tangibles impulsadas por la tecnología. Globant tiene como objetivo cerrar la brecha para ayudar a las organizaciones de ciencias de la vida y de atención médica a lograr su misión de brindar innovación y servicios de manera más rápida y eficiente para aumentar el valor del paciente y mejorar los resultados.