Na nossa postagem anterior do blog, exploramos o conceito de braços de controle sintéticos (ou externos), uma técnica que está revolucionando a criação de ensaios clínicos. Essa abordagem inovadora aproveita dados pré-existentes ou não inicialmente destinados a um estudo específico – como dados encontrados em registros eletrônicos de saúde (EHR) – abrindo novas possibilidades na área. À medida que nos aprofundamos nesse tópico, surgiram preocupações importantes, por exemplo, questões sobre como lidar com dados incompletos ou como garantir a privacidade do paciente. A geração de dados sintéticos é uma das ferramentas mais poderosas que temos à nossa disposição para preencher essas lacunas.
Dados sintéticos
Em um mundo onde o aprendizado de máquina, o aprendizado profundo, a IA generativa e as redes neurais estão em grande evidência, uma tendência revolucionária está no centro das atenções: a geração de dados sintéticos. À medida que a inteligência artificial continua com seu crescimento sem paralelo, a era dos dados sintéticos ou artificiais está emergindo como uma tendência inovadora, cativando as mentes dos entusiastas da tecnologia e também dos especialistas em dados.
Dados sintéticos refere-se a dados gerados artificialmente que imitam as propriedades e características estatísticas dos dados do mundo real (RWD), e seu objetivo principal é fornecer um substituto para os RWD quando preocupações com privacidade ou limitações de dados dificultam o uso de informações originais. Ele nos permite realizar testes, análises e modelagem sem correr o risco de expor informações confidenciais ou violar regulamentos de privacidade.
Métodos para Geração de Dados Sintéticos
O processo de geração empregavárias técnicas, como modelos estatísticos ou matemáticos, aprendizado de máquina ou aprendizado profundo.
Os modelos matemáticos visam produzir um modelo estatístico do conjunto de dados ou do processo subjacente que explica a variação nos dados. Eles incluem modelos de processos gaussianos, simulações de Monte Carlo, amostragem de modelos probabilísticos e suavização de densidade de kernel. Algumas vantagens da utilização dessa abordagem são a explicabilidade dos resultados, a eficiência computacional e o fato de poder ser combinada com uma área temática do conhecimento. No entanto, como pode ser baseado em suposições ou modelos incorretos, é difícil criar dados falsos, produzir a parametrização correta e representar padrões e relacionamentos complexos.
A próxima melhor técnica para gerar conjuntos de dados sintéticos é o aprendizado de máquina, em que o modelo precisa ingerir um conjunto de dados do mundo real para aprender padrões e, em seguida, aproveitar essas informações para criar novos dados com base no que aprendeu. Os modelos de aprendizado de máquina fazem menos suposições do que os modelos matemáticos. Algumas ferramentas nessa categoria são modelos de árvore de decisão, modelos de síntese baseados em cluster e modelos Bayesianos ingênuos. Alguns aspectos favoráveis do aprendizado de máquina são que ele captura muitos padrões e relacionamentos, a modelagem é orientada por dados e é fácil de automatizar e dimensionar para vastos conjuntos de dados. Por outro lado, é necessária entrada real de dados pré-processados para treinar o modelo; eles são computacionalmente intensivos e não possuem qualquer explicabilidade.
A aprendizagem profunda, uma forma mais complexa de inteligência artificial, depende de várias camadas de redes neurais trabalhando juntas de forma iterativa para aprender a partir de grandes conjuntos de dados de entrada. Elas conectam as propriedades emergentes das camadas abaixo para compreender os padrões e como os padrões são criados nos dados. Alguns exemplos de redes neurais são modelos de linguagem grande (LLM), redes adversárias generativas (GANs), transformadores e autoencoders variacionais (VAEs). Essas técnicas podem aprender e sintetizar relações muito complexas, trabalhar com vários tipos de conjuntos de dados (geralmente necessários para conjuntos de dados de saúde), fazer menos suposições e podem ser treinadas para otimizar simultaneamente a utilidade e a privacidade dos dados. Mas eles vêm com algumas desvantagens. Elas exigem um conjunto de dados inicial muito grande (às vezes pré-processado) para funcionar, podem ser propensas a sobre-ajuste, são muito exigentes em termos computacionais e têm menor explicabilidade.
Recentemente, as GANs têm-se destacado como um dos modelos mais preferidos. Elas se destacam na geração de dados sintéticos resilientes, capturando efetivamente tendências de dados do mundo real sem sobre-ajustar demais as amostras sintetizadas. O sobre-ajuste pode ocorrer quando os dados gerados se assemelham bastante ou se tornam quase idênticos aos dados do mundo real, colocando desafios para a preservação da privacidade, uma vez que alguns exemplos sintéticos podem imitar de perto o RWD.
Na visão computacional, que permite aos computadores interpretar informações visuais do mundo e realizar processos como reconhecimento de imagens, detecção de objetos e segmentação de imagens, os modelos de difusão – e especialmente os modelos de difusão latente – são as técnicas atuais de última geração para gerar dados sintéticos. Trata-se de uma classe de modelos generativos que podem capturar a distribuição subjacente de dados e fazer amostras deles para criar exemplos de dados novos e realistas. Esses modelos geralmente usam um processo de refinamento iterativo para gerar amostras de alta qualidade.
Aplicações de dados sintéticos em saúde
Como mencionamos anteriormente, criar um braço de controle externo diretamente do RWD tem suas vantagens, mas traz preocupações quanto ao uso de tais dados. Dados sintéticos servem a diversas aplicações no domínio da saúde e podem ajudar a mitigar esses desafios. Entre os principais casos de uso, o treinamento de modelos de aprendizado de máquina e a proteção da privacidade são os mais importantes. Vários grupos usaram dados gerados sinteticamente para aumentar dados reais e aumentar a amostragem de eventos ou padrões raros, aprimorando a precisão e a diversidade dos modelos de IA. Os dados sintéticos também são valiosos para testar software antes de acessar o RWD, pois permitem que os cientistas aperfeiçoem seu código sem comprometer a privacidade ou perder tempo.
- Proteção da privacidade: As informações dos pacientes são altamente confidenciais e os métodos tradicionais de desidentificação podem não fornecer proteção infalível contra vazamentos de privacidade. Uma das soluções é gerar dados sintéticos que reproduzam populações sem ligações diretas com indivíduos em amostras reais. Os dados sintéticos podem reduzir significativamente o risco de divulgação de identidade quando implementados corretamente, oferecendo maior proteção do que conjuntos de dados populacionais reais. Essa salvaguarda da privacidade pode aumentar a confiança do paciente nas práticas de compartilhamento de dados.
- Promover compartilhamento de dados: Preocupações regulamentares e éticas podem dificultar o compartilhamento de dados nos cuidados de saúde, levando ao acesso aos conjuntos de dados e a atrasos na aprovação. Os dados sintéticos apresentam uma alternativa atraente, imitando conjuntos de dados reais e preservando informações valiosas, como correlações de recursos e distribuições de parâmetros. Esses dados podem ser aproveitados para modelagem estatística, estudos de geração de hipóteses e fins educacionais.
- Aumento de dados: Em aplicações médicas, o tamanho limitado dos dados é um desafio comum devido ao envolvimento de especialistas altamente treinados na coleta e anotação de dados. A geração de dados sintéticos é uma técnica poderosa de aumento de dados, ampliando o tamanho dos conjuntos de dados sem coleta adicional de dados reais. A combinação de dados sintéticos com RWD durante o treinamento do modelo de ML permite que os profissionais de saúde otimizem a extração de informações estatísticas e melhorem a precisão do diagnóstico, beneficiando, em última análise, o atendimento ao paciente.
- Aumento da representação: Os algoritmos de ML podem apresentar vieses quando treinados em conjuntos de dados com classes desequilibradas, levando a um desempenho insatisfatório para populações sub-representadas. Ao incorporar dados sintéticos de grupos sub-representados, os modelos de ML podem melhorar o desempenho de cada subgrupo, levando, em última análise, a soluções de saúde mais equitativas e eficazes.
Algumas organizações já oferecem conjuntos de dados sintéticos, como o Simulacrum. Esse projeto, em específico, oferece dados sintéticos sobre câncer que imitam alguns dos dados mantidos de forma segura pelo Serviço Nacional de Registro e Análise de Câncer (NCRAS) dentro do Serviço Nacional de Saúde (NHS) Digital no Reino Unido. O Simulacrum se parece com os dados reais do câncer mantidos no NCRAS, mas não contém nenhuma informação real do paciente. Qualquer pessoa pode usá-lo para aprender mais sobre o câncer na Inglaterra sem comprometer a privacidade do paciente.
Prós e contras de dados sintéticos na saúde
Os dados sintéticos oferecem vários benefícios significativos. Eles minimizam as restrições associadas a dados regulamentados ou confidenciais, facilitam a personalização para atender às condições que o RWD pode não permitir e permitem a geração de grandes conjuntos de dados de treinamento sem rotulagem manual. Além disso, os dados sintéticos ajudam a abordar questões de privacidade e reduzem preconceitos em comparação com o RWD. No entanto, é importante notar que a qualidade dos dados sintéticos é altamente dependente da qualidade e quantidade dos dados originais e do modelo de geração de dados. Além disso, os dados sintéticos podem não capturar valores discrepantes presentes no mundo real e podem refletir preconceitos inerentes aos dados originais.
Outra consideração importante é o potencial de colapso modal em modelos generativos para a criação de dados sintéticos. Esses modelos são projetados para capturar a distribuição subjacente dos dados originais e gerar novas amostras a partir deles. No entanto, o colapso dos modos pode ocorrer quando o modelo se concentra em apenas alguns modos, resultando na falta de diversidade nas amostras sintéticas. Garantir um conjunto de dados de treinamento diversificado e representativo é crucial para resolver essa questão, e implementar técnicas de regularização e explorar abordagens, como a mistura de fontes de dados, é crucial. A combinação dessas estratégias ajuda a mitigar o risco de colapso do modo e garante um processo de geração de dados sintéticos mais rico e realista. Em outras palavras, a qualidade do conjunto de dados de treinamento inicial determinará diretamente a qualidade do resultado.
Como enfrentar os desafios
Avaliar a qualidade dos dados médicos sintéticos é vital. O foco principal deve ser colocado em três aspectos principais: fidelidade, diversidade e generalização. O Fidelity examina a semelhança entre sintético e RWD, avaliando se eles podem ser distinguidos e se podem ser feitas inferências populacionais. A diversidade explora até que ponto os dados sintéticos cobrem toda a população do mundo real. A generalização está relacionada à privacidade, determinando se as amostras de dados sintéticos são réplicas de RWD.
A proteção da privacidade é crucial, e várias métricas podem ser utilizadas para avaliar o risco de privacidade de conjuntos de dados sintéticos. Para encontrar um equilíbrio entre privacidade e transparência, devem ser tomadas decisões sobre quais os aspectos do processo de geração serão compartilhados publicamente, uma vez que a publicação de modelos totalmente treinados pode aumentar os riscos de privacidade. Uma das alternativas propostas é o aprendizado federado, que permite a criação de dados sintéticos de vários sites, mantendo o RWD local sensível. A privacidade diferencial é outra abordagem que proporciona um grau previsível de proteção da privacidade, mas sua implementação pode ser um desafio, e sua redução de utilidade pode variar.
Evitar a ampliação do viés do RWD é outra grande preocupação. Os dados sintéticos podem herdar vieses do conjunto de dados subjacentes do mundo real, amplificando-os potencialmente. Avaliar o viés e a imparcialidade no conjunto de dados antes da divulgação é essencial, garantindo que os grupos sub-representados não sejam ignorados e que as correlações não sejam confundidas com causalidade.
Equilibrar esses aspectos é crucial na criação de dados sintéticos de alta qualidade e protegidos pela privacidade, garantindo que seu potencial seja aproveitado de forma responsável nos cuidados de saúde.
A promessa de dados sintéticos na saúde
Embora a utilização de dados sintéticos ainda não tenha sido amplamente adotada nos cuidados de saúde e na pesquisa clínica, sua implementação bem-sucedida em outros setores, como o financeiro, indica seu potencial. A rápida aceitação do financiamento pode ser atribuída às implicações menos graves dos erros, enquanto os cuidados de saúde exigem uma abordagem mais cautelosa devido ao possível impacto na saúde dos pacientes. No entanto, à medida que o progresso tecnológico aborda esses desafios, o futuro é rico em oportunidades. Os dados sintéticos podem revolucionar a pesquisa em saúde, fortalecer as medidas de privacidade, aprimorar o treinamento de modelos e abrir caminho para muitos outros avanços.