Dans notre article de blog précédent, nous nous sommes intéressés aux concept des bras de contrôle synthétiques (ou externes), une technique qui révolutionne les protocoles d’essais cliniques. Cette approche innovante exploite des données préexistantes ou des données qui n’étaient pas initialement destinées à une étude spécifique, telles que les données contenues dans les dossiers médicaux électroniques (DME), ce qui ouvre de nouvelles perspectives dans ce domaine. Plus nous nous sommes aventurés dans ce domaine, plus des problématiques majeures sont apparues, par exemple des questions concernant le traitement de données incomplètes ou la protection de la vie privée des patients. La génération de données synthétiques est l’un des outils les plus puissants dont nous disposons pour combler ces lacunes.
Données synthétiques
Dans un monde où l’apprentissage automatique, l’apprentissage profond, l’IA générative et les réseaux neuronaux sont à l’honneur, une tendance révolutionnaire occupe le devant de la scène : la génération de données synthétiques. Alors que l’intelligence artificielle est partout déployée, l’ère des données synthétiques ou artificielles se présente comme une tendance innovante, mobilisant la réflexion des passionnés de technologies et des experts en données.
Les données synthétiques sont des données générées artificiellement qui imitent les propriétés et les caractéristiques statistiques des données du monde réel (RWD), et leur principal objectif est d’apporter un substitut aux RWD quand des problèmes de confidentialité ou des limitations de données empêchent l’utilisation des informations d’origine. Elles nous permettent d’effectuer des tests, des analyses et des modélisations sans risquer d’exposer des informations sensibles ou d’enfreindre les réglementations en matière de protection de la vie privée.
Méthodes de génération de données synthétiques
Le processus de génération emploie diverses techniques, par exemple, des modèles statistiques ou mathématiques, l’apprentissage automatique ou l’apprentissage profond.
Les modèles mathématiques visent à produire un modèle statistique de l’ensemble de données ou du processus sous-jacent qui explique la variation des données. Il s’agit notamment des modèles de processus gaussiens, des simulations de Monte Carlo, de l’échantillonnage à partir de modèles probabilistes et du lissage de la densité du noyau. Les avantages de cette approche sont l’explicabilité des résultats, l’efficacité des calculs et le fait qu’elle peut être combinée à un domaine de connaissance. Cependant, comme elle peut être basée sur des hypothèses ou des modèles incorrects, il est difficile de créer de fausses données, de produire une paramétrisation correcte et de représenter des modèles et des relations complexes.
La deuxième meilleure technique pour générer des jeux de données synthétiques est l’apprentissage automatique, où le modèle doit ingérer un jeu de données du monde réel pour apprendre des patterns, puis se servir de ces informations pour créer de nouvelles données sur la base de ce qu’il a appris. Les modèles d’apprentissage automatique reposent sur moins d’hypothèses que les modèles mathématiques. Parmi les outils de cette catégorie, citons les modèles d’arbres de décision, les modèles de synthèse basés sur le regroupement et les modèles bayésiens naïfs. Aspects positifs de l’apprentissage automatique : il permet de capturer de nombreux modèles et relations, la modélisation est basée sur des données et il est facile de l’automatiser et de l’adapter à d’importants jeux de données. Cela étant, des données réelles prétraitées sont nécessaires pour former le modèle ; elles nécessitent beaucoup de calculs et ne sont pas explicables.
L’apprentissage profond, une forme plus complexe d’intelligence artificielle, repose sur plusieurs couches de réseaux neuronaux qui s’intègrent de manière itérative pour apprendre à partir de grands jeux de données. Ils relient les propriétés émergentes des couches inférieures pour comprendre les schémas et la manière dont les schémas sont créés dans les données. Parmi les réseaux neuronaux, citons les modèles de langage étendu (LLM), les réseaux adversaires génératifs (GAN), les transformateurs et les autoencodeurs variationnels (VAE). Ces techniques peuvent apprendre et synthétiser des relations très complexes, s’intégrer à différents types de jeux de données (généralement nécessaires pour les jeux de données médicales), formuler moins d’hypothèses et être entraînées pour optimiser simultanément l’utilité des données et la protection de la vie privée. Mais elles présentent aussi des inconvénients. Elles nécessitent un très grand jeu de données initial (parfois prétraité) pour fonctionner, peuvent demander un surajustement, sont très contraignantes en termes de calcul et sont moins explicables.
Récemment, les GAN se sont imposés comme l’un des modèles les plus répandus. Ils sont très puissants dans la génération de données synthétiques résistantes dans la mesure où ils capturent efficacement les tendances des données du monde réel sans sur-ajuster les échantillons synthétisés. Le surajustement peut se produire si les données générées ressemblent étroitement ou deviennent quasiment identiques aux données du monde réel, ce qui pose des problèmes pour la protection de la vie privée, car certains exemples synthétiques peuvent imiter de près les RWD.
Dans le domaine de la vision artificielle, lequel permet aux ordinateurs d’interpréter les informations visuelles du monde et de réaliser des processus tels que la reconnaissance d’images, la détection d’objets et la segmentation d’images, les modèles de diffusion, en particulier les modèles de diffusion latente, sont les techniques les plus avancées actuellement pour générer données synthétiques. Il s’agit d’une classe de modèles génératifs capables de capturer la distribution sous-jacente des données et d’en capturer des échantillons pour créer de nouveaux exemples de données réalistes. Ces modèles utilisent souvent un processus de raffinement itératif pour générer des échantillons de haute qualité.
Applications des données synthétiques dans le domaine de la santé
Comme nous l’avons mentionné précédemment, la création d’un bras de commande externe directement à partir de RWD présente des avantages, mais s’accompagne de préoccupations quant à l’utilisation de ces données. Les données synthétiques ont diverses applications dans le domaine des soins de santé et peuvent contribuer à alléger ces problématiques. Parmi les principaux cas d’utilisation, la formation de modèles d’apprentissage automatique et la protection de la vie privée sont les plus importants. Plusieurs groupes ont utilisé des données générées synthétiquement pour augmenter les données réelles afin de suréchantillonner des événements ou des modèles rares, améliorant ainsi la précision et la diversité des modèles d’intelligence artificielle. Les données synthétiques sont également utiles pour tester les logiciels avant d’accéder à la RWD, car elles permettent aux scientifiques de perfectionner leur code sans fragiliser la protection de la vie privée ni perdre de temps.
- Protection de la vie privée : les informations sur les patients sont très sensibles et les méthodes classiques de dépersonnalisation peuvent ne pas offrir une protection infaillible contre les fuites de données privées. L’une des solutions consiste à générer des données synthétiques qui reproduisent des populations sans lien direct avec les individus des échantillons réels. Les données synthétiques peuvent réduire considérablement le risque de divulgation d’identité, si elles sont mises en œuvre correctement, et offrir une meilleure protection que les jeux de données de populations réelles. Cette protection de la vie privée peut mettre en confiance les patients dans les pratiques de partage des données.
- Favoriser le partage des données : les contraintes réglementaires et éthiques peuvent entraver le partage des données dans le domaine des soins de santé, entraînant des retards dans l’accès aux jeux de données et dans leur approbation. Les données synthétiques constituent une alternative intéressante, car elles imitent les jeux de données réels tout en préservant des informations précieuses telles que les corrélations entre les caractéristiques et les distributions de paramètres. Ces données peuvent être exploitées pour la modélisation statistique, les études de génération d’hypothèses et à des fins éducatives.
- Augmentation des données : dans les applications médicales, la taille limitée des données est une problématique courante en raison de l’implication d’experts hautement qualifiés dans la collecte et l’annotation des données. La génération de données synthétiques est une technique puissante d’augmentation des données, qui permet d’accroître la taille des jeux de données sans collecte supplémentaire de données réelles. La combinaison de données synthétiques et de RWD lors de la formation de modèles ML permet aux professionnels de santé d’optimiser l’extraction d’informations statistiques et d’améliorer la précision des diagnostics, ce qui profite en fin de compte aux soins des patients.
- Augmenter la représentation : les algorithmes ML peuvent être biaisés s’ils sont entraînés sur des jeux de données dont les classes sont déséquilibrées, ce qui dégrade les performances pour les populations sous-représentées. En incorporant des données synthétiques issues de groupes sous-représentés, les modèles ML peuvent améliorer les performances de chaque sous-groupe, ce qui conduit au final à des solutions de soins de santé plus équitables et plus efficaces.
Certaines entreprises proposent déjà des jeux de données synthétiques, comme Simulacrum. Ce projet, en particulier, propose des données synthétiques sur le cancer qui imitent certaines des données conservées en toute sécurité par le National Cancer Registration and Analysis Service (NCRAS) au sein du National Health Service (NHS) Digital au Royaume-Uni. Simulacrum ressemble aux vraies données sur le cancer détenues par le NCRAS, mais ne contient pas d’informations réelles sur les patients. Tout le monde peut l’utiliser pour en savoir plus sur le cancer en Angleterre sans compromettre la vie privée des patients.
Avantages et inconvénients des données synthétiques dans les soins de santé
Les données synthétiques présentent plusieurs avantages importants. Elles minimisent les contraintes associées aux données réglementées ou sensibles, facilitent la personnalisation pour répondre à des conditions que le RWD ne permet pas, et permettent de générer de grands jeux de données d’entraînement sans étiquetage manuel. Par ailleurs, les données synthétiques permettent de répondre aux préoccupations en matière de protection de la vie privée et réduisent les biais par rapport à la méthode RWD. Toutefois, il est important de noter que la qualité des données synthétiques dépend fortement de la qualité et de la quantité des données d’origine et du modèle de génération de données. De plus, les données synthétiques peuvent ne pas capturer les valeurs aberrantes présentes dans le monde réel et peuvent refléter les biais inhérents aux données originales.
Une autre considération importante concerne le risque de mode collapse dans les modèles génératifs pour la création de données synthétiques. Ces modèles sont conçus pour capturer la distribution sous-jacente des données originales et générer de nouveaux échantillons à partir de celle-ci. Cependant, un mode collapse peut se produire lorsque le modèle ne se concentre que sur quelques modes, ce qui réduit la diversité dans les échantillons synthétiques. Pour résoudre ce problème, il est essentiel de disposer d’un jeu de données d’apprentissage diversifié et représentatif, de mettre en œuvre des techniques de régularisation et d’étudier des approches telles que le mixing de sources de données. La combinaison de ces stratégies permet d’atténuer le risque de mode collapse et garantit un processus de génération de données synthétiques plus riche et plus réaliste. En d’autres termes, la qualité du jeu de données d’apprentissage initial détermine directement la qualité du résultat.
Résoudre les problématiques
L’évaluation de la qualité des données médicales synthétiques est indispensable. L’accent doit être mis sur trois aspects clés : la fidélité, la diversité et la généralisation. La fidélité examine la ressemblance entre les données synthétiques et les RWD, en évaluant s’il est possible de les distinguer et de faire des inférences sur la population. La diversité permet de déterminer dans quelle mesure les données synthétiques couvrent l’ensemble de la population du monde réel. La généralisation est liée à la protection de la vie privée et permet de déterminer si les échantillons de données synthétiques sont des répliques de RWD.
La protection de la vie privée étant cruciale, diverses métriques peuvent être utilisées pour évaluer le risque de perte de confidentialité des jeux de données synthétiques. Pour trouver un équilibre entre la protection de la vie privée et la transparence, il faut décider des aspects du processus de génération qui doivent être partagés publiquement, car la diffusion de modèles entièrement entraînés peut accroître les risques pour la vie privée. L’une des solutions proposées est l’apprentissage fédéré, qui permet de créer des données synthétiques à partir de plusieurs sites tout en conservant les données sensibles au niveau local. La confidentialité différentielle est une autre approche qui offre un degré prévisible de protection de la vie privée, mais sa mise en œuvre peut s’avérer difficile et la réduction de l’utilité peut varier.
Une autre préoccupation majeure est d’éviter l’amplification des biais dus à la RWD. Les données synthétiques peuvent hériter des biais du jeu de données réel sous-jacent, et potentiellement les amplifier. Il est essentiel d’évaluer les biais et l’équité de l’ensemble des données avant leur publication, afin de s’assurer que les groupes sous-représentés ne sont pas ignorés et que les corrélations ne sont pas confondues avec des liens de causalité.
Il est indispensable d’équilibrer ces aspects pour créer des données synthétiques de haute qualité et respectueuses de la vie privée, afin de garantir que leur potentiel soit exploité de manière responsable dans le domaine des soins de santé.
Les promesses des données synthétiques dans les soins de santé
Si l’utilisation des données synthétiques n’a pas encore été adoptée à grande échelle dans les soins de santé et la recherche clinique, sa mise en œuvre réussie dans d’autres secteurs, comme celui de la finance, témoigne de son potentiel. L’adoption rapide dans le secteur financier peut s’expliquer par le fait que les erreurs entraînent de moins graves conséquences, alors que les soins de santé demandent une approche plus prudente en raison des répercussions possibles sur la santé des patients. Toutefois, les progrès technologiques aidant à résoudre ces problématiques, l’avenir offre de belles perspectives. Les données synthétiques peuvent révolutionner la recherche dans le domaine des soins de santé, renforcer les mesures de protection de la vie privée, améliorer l’apprentissage des modèles et ouvrir la voie à de nombreuses autres avancées.