Synthetische Datenerzeugung im Gesundheitswesen und in den Biowissenschaften. Haben wir das Ziel schon erreicht?

September 19, 2023

In unserem früheren Blogbeitrag haben wir das Konzept der synthetischen (oder externen) Kontrollarme untersucht, eine Technik, die das Entwerfen klinischer Studien revolutioniert. Dieser innovative Ansatz nutzt Bestandsdaten oder Daten, die ursprünglich nicht für eine bestimmte Studie vorgesehen waren – wie etwa Daten aus elektronischen Gesundheitsakten – und eröffnet damit auf diesem Feld neue Möglichkeiten. Als wir uns näher mit diesem Thema befassten, kamen wichtige Bedenken auf, wie etwa Fragen zum Umgang mit unvollständigen Daten oder dem Schutz der Patientendaten. Das Erzeugen synthetischer Daten ist eines der leistungsfähigsten, uns zur Verfügung stehenden Tools, um diese Lücken zu schließen. 

Synthetische Daten

In einer Welt, in der maschinelles Lernen, Deep Learning, generative KI und neuronale Netze in aller Munde sind, rückt ein revolutionärer Trend in den Mittelpunkt: die synthetische Datenerzeugung. Mit dem beispiellosen Wachstum der Künstlichen Intelligenz entwickeln sich synthetische oder künstliche Daten zu einem innovativen Trend, der Technologiebegeisterte und Datenexperten gleichermaßen in seinen Bann zieht. 

Synthetische Daten bezieht sich als Begriff auf künstlich erzeugte Daten, die die statistischen Eigenschaften und Merkmale von realen Daten (RWD, Real World Data) nachahmen. Im Hauptzweck sollen sie RWD ersetzen, wenn Datenschutzbedenken oder Datenbeschränkungen gegen die Verwendung von Originaldaten sprechen. Auf diese Weise können wir Tests, Analysen und Modellierungen durchführen, ohne die Offenlegung sensibler Daten zu riskieren oder gegen Datenschutzbestimmungen zu verstoßen.

Methoden zum Erzeugen synthetischer Daten

Im Erzeugungsprozess werden verschiedene Techniken wie statistische oder mathematische Modelle, maschinelles Lernen oder Deep Learning verwendet. 

Mathematische Modelle zielen darauf ab, statistische Modelle des Datensatzes oder des zugrunde liegenden Prozesses zu erstellen, die Datenvariationen erklären. Dazu gehören Gaußsche Prozessmodelle, Monte-Carlo-Simulationen, Stichproben aus probabilistischen Modellen und die Glättung der Kernel-Dichte. Einige Vorteile dieses Ansatzes sind die Nachvollziehbarkeit der Ergebnisse, die Berechnungseffizienz und die Tatsache, dass er mit einem bestimmten Wissensgebiet kombiniert werden kann. Da er jedoch auf falschen Annahmen oder Modellen beruhen kann, der falsche Daten erstellt, ist es schwierig, die richtige Parametrisierung vorzunehmen und komplexe Muster und Beziehungen darzustellen. 

Die nächstbeste Technik zum Erzeugen synthetischer Datensätze ist das maschinelle Lernen. Dabei muss das Modell einen realen Datensatz aufnehmen, um dessen Muster zu erlernen und dann diese Informationen nutzen, um auf der Grundlage des Gelernten neue Daten zu erstellen. Modelle des maschinellen Lernens gehen von weniger Annahmen aus als mathematische Modelle. Zu dieser Kategorie gehören Entscheidungsbaummodelle, clusterbasierte Synthesemodelle und naive Bayes’sche Modelle. Einige vorteilhafte Aspekte des maschinellen Lernens sind das Erfassen vieler Muster und Beziehungen, die datengesteuerte Modellierung und das einfache Automatisieren und Skalieren auf große Datensätze. Andererseits werden zum Trainieren des Modells echte vorverarbeitete Daten benötigt. Sie sind zudem rechenintensiv sind bieten keine Nachvollziehbarkeit. 

Beim Deep Learning, einer komplexeren Form der Künstlichen Intelligenz, arbeiten mehrere Schichten von neuronalen Netzen iterativ zusammen, um aus großen Eingabedatensätzen zu lernen. Sie verknüpfen sich abzeichnenden Eigenschaften der darunter liegenden Ebenen, um Muster zu erkennen und zu verstehen, wie Muster in Daten entstehen. Einige Beispiele für neuronale Netze sind große Sprachmodelle (LLM), generative abweisende Netzwerke (GANs), Transformatoren und Variations-Autoencoder (VAEs). Diese Systeme können sehr komplexe Beziehungen erlernen und synthetisieren, mit verschiedenen Arten von Datensätzen arbeiten (in der Regel für Gesundheitsdatensätze erforderlich), weniger Annahmen treffen und so trainiert werden, dass sowohl der Datennutzen als auch der Datenschutz optimiert werden. Aber sie haben auch einige Nachteile. Sie erfordern einen sehr großen (manchmal vorverarbeiteten) Ausgangsdatensatz, sind anfällig für Überanpassung sowie sehr rechenintensiv und bieten geringere Nachvollziehbarkeit. 

In letzter Zeit haben sich die GANs als beliebtesten Modelle herauskristallisiert. Sie zeichnen sich dadurch aus, dass sie belastbare synthetische Daten erzeugen und Trends aus realen Daten effektiv erfassen, ohne dabei die synthetisierten Stichproben zu sehr anzupassen. Zu Überanpassungen kann es kommen, wenn die erzeugten Daten den realen Daten sehr ähnlich oder mit ihnen nahezu identisch sind. Dies wiederum ist eine Herausforderung für den Datenschutz, da einige synthetische Beispiele den RWD sehr ähnlich sein können.

Im Anwendungsgebiet Computer Vision, auf dem Computern visuelle Informationen der realen Welt interpretieren und Prozesse wie Bilderkennung, Objekterkennung und Bildsegmentierung durchführen, sind Diffusionsmodelle – und insbesondere latente Diffusionsmodelle – der aktuelle Stand der Technik zum Erzeugen synthetischer Daten. Dabei handelt es sich um eine Klasse generativer Modelle, die die zugrundeliegende Verteilung von Daten erfassen und daraus Stichproben ziehen, um neue, realistische Datenbeispiele zu erstellen. Um hochwertige Proben zu erzeugen, werden diese Modelle häufig in iterativen Prozessen verfeinert.

Anwendungsgebiete für synthetische Daten im Gesundheitswesen 

Wie bereits erwähnt, hat das Erstellen externer Kontrollarme direkt aus RWD seine Vorteile, ist aber mit Bedenken hinsichtlich der Verwendung solcher Daten verbunden. Synthetische Daten werden im Bereich des Gesundheitswesens vielfältig angewendet und können dort dazu beitragen, diese Herausforderungen zu bewältigen. Zu den wichtigsten Anwendungsfällen gehören das Trainieren von Modellen für maschinelles Lernen und der Datenschutz. Mehrere Arbeitsgruppen verwenden synthetisch erzeugte Daten, um reale Daten zu augmentieren und damit seltene Ereignisse oder Muster herauszufiltern, um so die Genauigkeit und Vielfalt von KI-Modellen zu verbessern. Synthetische Daten sind auch für das Testen von Software vor dem Zugreifen auf RWD wertvoll, da sie es Wissenschaftlern ermöglichen, ihre Codes zu perfektionieren, ohne gegen Datenschutzvorgaben zu verstoßen oder Zeit zu verschwenden.

  • Datenschutz: Patientendaten sind hochsensibel und herkömmliche Verfahren der Anonymisierung bieten unter Umständen keinen absoluten Schutz vor Datenschutzlecks. Eine der Lösungen ist das Erzeugen synthetischer Daten, die Populationen ohne direkte Verbindung zu Individuen in realen Proben reproduzieren. Synthetische Daten können das Risiko der Identitätsoffenlegung erheblich verringern, wenn sie richtig implementiert werden. Sie bieten einen größeren Schutz als Datensätze realer Populationen. Dieser Datenschutz kann das Vertrauen von Patienten in die Verfahren der Datenweitergabe fördern.
  • Förderung der gemeinsamen Datennutzung: Regulatorische und ethische Bedenken können die gemeinsame Datennutzung im Gesundheitswesen behindern. Das führt zu Verzögerungen beim Zugang zu Datensätzen und bei Genehmigungen. Synthetische Daten sind eine attraktive Alternative, denn sie imitieren reale Datensätze, bewahren aber dabei wertvolle Informationen wie Merkmalskorrelationen und Parameterverteilungen. Diese Daten können für statistische Modellierungen, hypothesengenerierende Studien sowie Bildungszwecke genutzt werden.
  • Datenaugmentierung: Bei medizinischen Anwendungen ist die begrenzte Datenmenge eine häufige Herausforderung, da hochqualifizierte Experten am Erfassen und Kommentieren der Daten beteiligt sind. Das Erzeugen synthetischer Daten ist eine leistungsstarke Technik der Datenaugmentierung, mit der der Umfang von Datensätzen ohne zusätzliche reale Datenerfassung vergrößert werden kann. Das Kombinieren von synthetischen Daten mit RWD beim Trainieren von ML-Modellen ermöglicht es Fachleuten im Gesundheitswesen, das Extrahieren statistische Informationen zu optimieren und die diagnostische Genauigkeit zu verbessern. Beides kommt letztlich den Patienten zugute.
  • Erhöhung der Repräsentativität: ML-Algorithmen können Verzerrungen produzieren, wenn sie mit Datensätzen mit unausgewogenen Klassen trainiert werden, was zur ungenügenden Wiedergabe unterrepräsentierter Populationen führt. Durch Einbeziehen synthetischer Daten von unterrepräsentierten Gruppen können ML-Modelle die Wiedergabe aller Untergruppen verbessern, was letztlich zu gerechteren und effektiveren Lösungen im Gesundheitswesen führt.

Einige Organisationen bieten bereits synthetische Datensätze an, so zum Beispiel Simulacrum. Dieses Projekt bietet insbesondere synthetische Krebsdaten an, die einen Teil der Daten imitieren, die vom National Cancer Registration and Analysis Service (NCRAS) als Teil des National Health Service (NHS) Digital des Vereinigten Königreichs sicher verwahrt werden. Die Daten in Simulacrum erscheinen wie echte, in NCRAS gespeicherte Krebsdaten, enthalten aber keine realen Patienteninformationen. Sie sind allgemein zugänglich, um mehr über Krebserkrankungen im Vereinigten Königreich zu erfahren, ohne dabei die Datenschutzinteressen von Patienten zu berühren. 

Vor- und Nachteile synthetischer Daten im Gesundheitswesen

Synthetische Daten bieten mehrere bedeutende Vorteile. Sie minimieren die mit geschützten oder sensiblen Daten verbundenen Einschränkungen, erleichtern Anpassungen an Bedingungen, die RWD möglicherweise nicht zulassen und ermöglichen das Erstellung großer Trainingsdatensätze ohne manuelle Bearbeitung. Darüber hinaus tragen synthetische Daten dazu bei, Bedenken hinsichtlich des Datenschutzes auszuräumen und im Vergleich zu RWD Verzerrungen zu verringern. Es ist jedoch unbedingt zu beachten, dass die Qualität der synthetischen Daten in hohem Maße von der Qualität und Menge der Originaldaten und dem Datenerstellungsmodell abhängt. Außerdem erfassen synthetische Daten möglicherweise keine der in der realen Welt vorkommenden Ausreißer. Auch können sie in den Originaldaten enthaltene Verzerrungen widerspiegeln. 

Eine weitere wichtige Überlegung in generativen Modellen zum Erstellen synthetischer Daten ist das Potenzial für Modus-Kollaps. Diese Modelle sind so konzipiert, dass sie die zugrunde liegende Verteilung der ursprünglichen Daten erfassen und daraus neue Stichproben erzeugen. Allerdings kann es zu einem Modus-Kollaps kommen, wenn sich das Modell nur auf einige wenige Modi konzentriert, was in den synthetischen Proben zu einem Mangel an Vielfalt führt. Vielfältige und repräsentative Trainingsdatensätze sicherzustellen, ist von entscheidender Bedeutung, um dieses Problem anzugehen. Auch das Implementieren von Regularisierungstechniken und das Erforschen von Ansätzen wie dem Mischen von Datenquellen sind von entscheidender Bedeutung. Das Kombinieren dieser Strategien trägt dazu bei, das Risiko eines Modus-Kollaps zu mindern und gewährleistet einen reichhaltigerem und realistischeren Prozess für das Erzeugen synthetischer Daten. Mit anderen Worten: Die Qualität des anfänglichen Trainingsdatensatzes bestimmt unmittelbar die Qualität des Ergebnisses.  

Bewältigen der Herausforderungen

Die Qualitätsbewertung synthetischer medizinischer Daten ist von entscheidender Bedeutung. Das Hauptaugenmerk muss sich auf drei Schlüsselaspekte richten: Wiedergabetreue, Vielfalt und Verallgemeinerung. Wiedergabetreue untersucht die Ähnlichkeit zwischen synthetischen Daten und RWD. Dabei wird beurteilt, ob sie unterschieden werden können und ob Rückschlüsse auf die Population möglich sind. Bei der Vielfalt wird untersucht, wie gut die synthetischen Daten die gesamte reale Population abdecken. Die Verallgemeinerung bezieht sich auf den Datenschutz. Dabei wird festgestellt, ob die synthetischen Datenproben Repliken von RWD sind.

Der Datenschutz ist von entscheidender Bedeutung. Zur Bewertung des Datenschutzrisikos synthetischer Datensätze werden verschiedene Metriken verwendet. Um das Gleichgewicht zwischen Datenschutz und Transparenz herzustellen, muss entschieden werden, welche Aspekte des Erzeugungsprozesses öffentlich zugänglich gemacht werden sollen. Denn die Freigabe vollständig trainierter Modelle kann die Datenschutzrisiken erhöhen. Eine der vorgeschlagenen Alternativen ist das föderalistisch geprägte Lernen. Es ermöglicht das Erstellen synthetischer Daten von mehreren Standorten aus, wobei die sensiblen RWD lokal verbleiben. Differentieller Datenschutz ist ein weiterer Ansatz für ein abschätzbares Maß an Datenschutz. Die Umsetzung kann sich jedoch als schwierig erweisen und der Nutzen unterschiedlich stark reduziert sein.

Ein weiteres wichtiges Anliegen ist es, zu vermeiden, das Verzerrungen aus den RWD vergrößert werden. Das Erzeugen synthetischer Daten kann Verzerrungen aus dem zugrunde liegenden realen Datensatz übernehmen und diese möglicherweise verstärken. Das Bewerten von Verzerrungen und Ausgewogenheit im Datensatz vor der Freigabe ist von entscheidender Bedeutung. Damit wird sichergestellt, dass unterrepräsentierte Gruppen nicht ignoriert werden und dass Korrelationen nicht fälschlicherweise als Kausalitäten interpretiert werden.

Das Abwägen dieser Aspekte ist für das Erstellen hochwertiger und datenschutzrechtlich geschützter synthetischer Daten von entscheidender Bedeutung. Nur so kann das Potenzial im Gesundheitswesen verantwortungsvoll genutzt werden.

Die Verheißungen synthetischer Daten im Gesundheitswesen

Auch wenn der Einsatz synthetischer Daten im Gesundheitswesen und in der klinischen Forschung noch nicht weit verbreitet ist, zeigt die erfolgreiche Umsetzung in anderen Branchen, wie etwa im Finanzsektor, das Potenzial. Die schnelle Akzeptanz im Finanzwesen kann auf die weniger schwerwiegenden Auswirkungen von Fehlern zurückgeführt werden. Im Gesundheitswesen muss wegen der möglichen Auswirkungen auf die Gesundheit von Patienten ein vorsichtigeres Vorgehen erforderlich sein. Da der technologische Fortschritt diese Herausforderungen jedoch bewältigen wird, bietet die Zukunft eine Fülle von Möglichkeiten. Synthetische Daten können die Gesundheitsforschung revolutionieren, Datenschutzmaßnahmen verstärken, das Modelltraining verbessern und den Weg für großen weiteren Fortschritt ebnen.

Newsletter abonnieren

Erhalten Sie aktuelle Nachrichten, kuratierte Beiträge und Highlights. Wir versprechen, dass Sie niemals Spam-Mails von uns erhalten werden.

Das Studio "Healthcare & Life Sciences" zielt darauf ab, das Ökosystem der Biowissenschaftsbranche durch konkrete technologiegestützte Lösungen neu zu erfinden. Ziel von Globant ist es, die Lücke zu schließen, um Unternehmen aus den Bereichen Biowissenschaften und Gesundheitswesen dabei zu unterstützen, Innovationen und Dienstleistungen schneller und effizienter bereitzustellen, um den Nutzen für die Patienten zu erhöhen und die Ergebnisse zu verbessern.

Überlegungen zum Stand der KI in der Pharmaforschung heute Einige Analysen der Fortschritte bei der KI-gestützten Entdeckung von Arzneimitteln im vergangenen Jahr...

&
März 19, 2024

Die Identifizierung, Rekrutierung und Aufnahme von Patienten ist seit langem eine der schwierigsten Herausforderungen, die bei klinischen Studien zu bewältigen sind ....

September 26, 2023

In einem früheren Artikel haben wir erörtert, wie Real-World-Evidence (RWE) wichtige Durchbrüche im Gesundheitswesen und in den Biowissenschaften erleichtern und beschleunigen kann....

September 7, 2023