Künstliche Intelligenz (KI) und Zielidentifizierung

Überlegungen zum Stand der KI in der Pharmaforschung heute

Einige Analysen der Fortschritte bei der KI-gestützten Entdeckung von Arzneimitteln im vergangenen Jahr deuten darauf hin, dass keines der vollständig durch künstliche Intelligenz (KI) generierten Moleküle den Sprung von der Entdeckung zur klinischen Entwicklung geschafft hat. Obwohl die KI die Identifizierung von Target-Molekülen für Arzneimittel und die Entdeckung neuartiger Moleküle, die mit ihnen interagieren, beschleunigt hat, waren die Ergebnisse einiger klinischer Studien wenig überzeugend. Im Jahr 2023 haben durch KI entdeckte Moleküle in klinischen Studien für Krankheiten wie atopische Dermatitis, Schizophrenie und Krebs die Erwartungen nicht erfüllt.

KI war auch in diesem Jahr das Schlagwort auf der J.P. Morgan Healthcare Conference und deren Satellitenveranstaltungen. Obwohl sich die Meinung durchsetzt, dass KI die Entwicklung von Arzneimitteln zwar schneller, aber nicht kostengünstiger machen wird, vor allem wegen der erheblichen Kosten für Softwareentwicklung und Rechenleistung, sind die Erwartungen an die Rolle der KI in der biowissenschaftlichen Forschung und Entwicklung groß. 

Während einer von BCG veranstalteten Frühstücksrunde zum Thema generative KI (genAI) im Gesundheitswesen betonte Parminder Bhatia, Chief AI Officer bei GE Healthcare, die Ähnlichkeiten zwischen der zentralen Rolle, die genAI derzeit spielt, und der Rolle, die Cloud Computing im letzten Jahrzehnt spielte. Er und andere Diskussionsteilnehmer – darunter John Doyle, CTO für Gesundheitswesen und Biowissenschaften bei Microsoft – zeigten sich begeistert von den Möglichkeiten, die sich aus multimodalen Modellen ergeben. Gleichzeitig räumten sie ein, dass es eine Herausforderung ist, mit der Informationsflut Schritt zu halten. Jean-Philippe Vert, Chief R&D Officer bei Owkin, wies darauf hin, dass die meisten Veröffentlichungen nicht von Experten begutachtet werden. Jeder kann seine Ergebnisse online veröffentlichen, und es erfordert ein hohes Maß an Fachkenntnis, um das Signal vom Rauschen zu unterscheiden, wenn es darum geht, zu bewerten, was in der KI-Entwicklung im Gesundheitswesen und in den Biowissenschaften real ist.

Während sich die Spannungen zwischen Hype und Skepsis fortsetzen, schließen sich Organisationen zusammen, um Rahmenwerke für verantwortungsvolle KI zu entwickeln, insbesondere angesichts der Diskussionspapiere der Aufsichtsbehörden in Europa und den USA zum Einsatz von KI im pharmazeutischen Produktlebenszyklus.

Auf der Suche nach einer pragmatischen Sichtweise haben wir uns mit Juan Manuel Domínguez Correa, dem Leiter der Abteilung für Arzneimittelforschung und Biostatistik bei Topazium, zusammengesetzt, um die Target-Identifizierung als Möglichkeit für praktische KI-Anwendungen in der Arzneimittelforschung näher zu beleuchten.

Basia Coulter (BC): Juan Manuel, bevor wir über die Anwendung von KI bei der Zielerkennung sprechen, ist es vielleicht sinnvoll zu definieren, was wir unter Zielerkennung verstehen.

Juan Manuel Domínguez (JMD): In der Pharmaforschung wird der Begriff Target-Identifizierung häufig zur Beschreibung von zwei unterschiedlichen Prozessen verwendet. Die erste Interpretation der Zielidentifizierung bezieht sich darauf, ob ein natürlich vorkommendes Biomolekül bei einem bestimmten Zustand oder einer bestimmten Krankheit eine Rolle spielt. Ein solches Biomolekül, oder “Target”, kann dann zur Entwicklung neuer Medikamente verwendet werden, die mit ihm interagieren. Dies ist das traditionelle Verständnis der Zielidentifizierung.

Es gibt jedoch noch einen anderen Prozess, der oft als Target-Identifikation bezeichnet wird und den ich lieber als Target-Dekonvolution bezeichne. Bei der Target-Dekonvolution geht es darum, ein Target für ein Arzneimittel zu identifizieren, das zuvor in einem so genannten Black-Box-Screening entdeckt wurde. Dazu gehören alle Arten von phänotypischen Screenings, von den rudimentärsten, die das Überleben oder den Tod von Zellen untersuchen, bis hin zu den ausgefeiltesten, die auf konfokaler Mikroskopie basieren, um die Reaktion der Zellen zu beobachten. Die Herausforderung besteht darin, herauszufinden, welches spezifische Protein, welche DNA oder welches Biomolekül in der Zelle von dem entdeckten Wirkstoffmolekül beeinflusst wird, was zu den beobachteten phänotypischen Veränderungen führt. Dieser Identifizierungsprozess unterscheidet sich von dem traditionellen Konzept der Zielidentifizierung. Dies gilt insbesondere für Arzneimittel, die bereits auf dem Markt sind, deren genaue Wirkorte aber noch nicht bekannt sind. 

BC: Wenn wir über Arzneimittelforschung sprechen, denken die meisten Menschen wahrscheinlich sofort daran, neue Moleküle zu finden, die als Arzneimittel verwendet werden können. Doch hier geht es nicht um die Entdeckung von Arzneimitteln an sich. Vielmehr geht es darum, Moleküle zu entdecken, gegen die ein Medikament gerichtet sein könnte. Warum ist das so wichtig?

JMD: Das menschliche Genom enthält mehr als 20.000 Gene, aus denen über eine Million potenzieller Zielmoleküle durch Prozesse zur Regulierung der Genexpression wie Transkription, alternatives Spleißen, posttranslationale Modifikationen und andere Mechanismen hervorgehen können. Betrachtet man die dreidimensionale (3D) Struktur dieser potenziellen Target-Moleküle, so weisen nur etwa 5.000 davon „Taschen” oder Rillen auf, an die kleine Moleküle binden können. Solche „Taschen” können genutzt werden, um kleine Wirkstoffmoleküle zu binden, wodurch die Targets, die sie besitzen, „arzneimittelfähig” werden. Von diesen 5.000 potenziell arzneimittelwirksamen Targets werden nur etwa 800 (weniger als 20 %) von den derzeit auf dem Markt befindlichen Arzneimitteln angegriffen. Das bedeutet, dass für über 80 % der arzneimittelwirksamen Targets noch Moleküle gefunden werden müssen, die sie binden können. Jedes Protein* unter den Zielproteinen, die eine Schlüsselrolle in den Krankheitsprozessen spielen, könnte daher für noch zu entdeckende Medikamente zugänglich sein.

[*Fußnote: Der Einfachheit halber verwenden wir den Begriff „Target” für ein Protein, obwohl auch DNA und/oder RNA Targets für Wirkstoffmoleküle sein können. Letztlich ist es die Funktion eines Proteins, die durch die Bindung von Wirkstoffmolekülen verändert wird (entweder direkt oder über DNA/RNA), und es ist ein Protein, das ein funktionelles Target für ein Arzneimittel ist.”

BC: Sie sagen also, dass wir durch eine Kombination aus Schlussfolgerungen und empirischen Beweisen wissen, dass es mehr als 4.000 potenziell arzneimittelwirksame Targets geben muss, für die wir noch keine Arzneimittel entdeckt haben. Das bringt mich dann direkt zur Entdeckung von Arzneimittelmolekülen. Warum müssen wir mehr Zeit auf die Identifizierung von Targets verwenden?

JMD: Wir sprachen vorhin über das traditionelle Verständnis der Target-Identifizierung, bei dem es darum geht, herauszufinden, ob ein natürlich vorkommendes Biomolekül existiert, das bei einer bestimmten Erkrankung eine Rolle spielt. Mit anderen Worten: Bei der Target-Identifizierung geht es darum, den Zusammenhang zwischen einem Biomolekül, z. B. einem Protein, und einer Krankheit zu verstehen, denn ein Biomolekül kann nur dann ein sinnvolles Target für ein Arzneimittel sein, wenn es zur Entstehung der Krankheit beiträgt. Wenn eine solche Verbindung besteht, kann die gezielte Behandlung dieses Proteins mit einem Wirkstoffmolekül den Krankheitsverlauf unterbrechen.

Wenn wir an die Identifizierung von Zielmolekülen denken, ist der erste Schritt bei der Entdeckung von Arzneimitteln die Suche nach Hinweisen, die ein bestimmtes Protein mit einem bestimmten Krankheitsweg in Verbindung bringen könnten. 

BC: MalaCards, eine Datenbank für menschliche Krankheiten, enthält über 22.000 Krankheitseinträge. Zusammen mit den insgesamt 5.000 potenziell arzneimittelwirksamen Target-Molekülen und den mehr als 4.000, auf die noch kein Wirkstoffmolekül abzielt, ergibt sich eine große Anzahl möglicher Kombinationen, auf die man sich stürzen kann. Wie können wir das tun?

JMD: Hinweise werden zunächst durch so genannte „trockene” Studien gefunden, die die Durchsicht von wissenschaftlicher oder biomedizinischer Grundlagenliteratur und die Durchführung von bioinformatischen oder epidemiologischen Studien umfassen können. 

Angesichts der Anzahl potenzieller Target-Moleküle in Verbindung mit der Anzahl der Krankheiten und der möglichen Wege, auf denen eine veränderte Proteinfunktion zu Krankheiten führen kann, ist die Suche nach Hinweisen in Trockenstudien zeit- und arbeitsaufwändig. Traditionell werden trockene Studien von Forschern durchgeführt, die viele wissenschaftliche Abhandlungen lesen und/oder Analysen verfügbarer biologischer oder medizinischer Daten durch bioinformatische oder epidemiologische Studien durchführen. Diese Hinweise oder Hypothesen über die Beteiligung eines bestimmten Proteins an der Entstehung einer bestimmten Krankheit müssen anschließend im Labor durch sogenannte „nasse Studien” getestet werden.

BC: Als ehemaliger Akademiker bin ich sehr vertraut mit dem Aufwand, der mit der Überprüfung wissenschaftlicher Literatur verbunden ist. Wie kann KI die Forscher dabei unterstützen?

JMD: Das ist die erste Gelegenheit, KI zu nutzen, insbesondere generative KI (genAI) und große Sprachmodelle (LLMs). LLMs sind fortschrittliche Systeme der künstlichen Intelligenz, die die menschliche Sprache verstehen, erzeugen und mit ihr interagieren können. Sie sind “groß”, weil sie auf großen Mengen von Textdaten trainiert werden und so ein breites Spektrum an sprachlichen Mustern, Stilen und Konzepten “erfassen” können. Sie sind perfekt geeignet, um die wissenschaftliche Literatur oder andere große Datensätze auf der Suche nach Hinweisen zu durchforsten, die Proteine mit Krankheitsbahnen verbinden. 

Stellen Sie sich vor, Sie suchen nach Proteinen, die möglicherweise an einem Krankheitsweg für erbliche Ataxie beteiligt sind. Anstatt ein Team von Mitarbeitern zu beauftragen, Arbeiten zu studieren, die genbedingte Ataxien, Genexpression und Proteinfehlfunktionen behandeln und in Verbindung bringen, könnten Sie einen LLM damit beauftragen, die Literatur zu durchkämmen und die wichtigsten Ergebnisse herauszufinden, beginnend mit einfachen Informationen wie der Häufigkeit, mit der ein bestimmtes Gen im Zusammenhang mit erblicher Ataxie erwähnt wird. LLM können nicht nur Tausende von Dokumenten schnell lesen und analysieren, sondern ermüden auch nicht, so dass sie unabhängig von der Menge des zu analysierenden Inputs zuverlässige Ergebnisse liefern können.

BC: Sie haben gerade davon gesprochen, dass der Output verlässlich sein muss. LLMs sind jedoch dafür bekannt, dass sie in ihren Ergebnissen sehr kreativ sind oder gar halluzinieren, und wir müssen uns eingestehen, dass diese Eigenschaft von LLMs der Strenge einer wissenschaftlichen Untersuchung zuwiderläuft. Lassen Sie mich kurz einwerfen, dass Fortschritte bei der Verringerung der Wahrscheinlichkeit von LLM-Halluzinationsepisoden gemacht werden. Eine solche Methode besteht darin, LLMs mit symbolischen Modellen zu ergänzen, die eine Quelle der Vorhersagbarkeit sind. Bei Globant haben wir auch die fortschrittliche Retrieval Augmented Generation (RAG) eingesetzt, einschließlich der Kombination von LLM mit Wissensgraphen. Wir setzen auch Open-Source-Modelle ein. 

Aber Sie haben auch Bioinformatik und epidemiologische Studien erwähnt, bevor Sie auf die Identifizierung von Targets und die Möglichkeiten zur Nutzung von KI zurückkamen. Können wir ein wenig mehr darüber sprechen?

JMD: Bioinformatik- und Epidemiologiestudien umfassen die Analyse großer Mengen biologischer oder medizinischer Daten, wobei in der Regel computergestützte, mathematische und statistische Methoden angewandt werden. Durch diese Studien können wir Hinweise finden, die verschiedene Arten von Biomolekülen mit bestimmten Krankheitsverläufen verbinden. Diese Art von Studien spielt sowohl bei der Target-Identifizierung im herkömmlichen Sinne (um herauszufinden, ob es ein natürlich vorkommendes Biomolekül gibt, das bei einer bestimmten Erkrankung eine Rolle spielt) als auch bei der Target-Dekonvolution (Identifizierung von Targets für Arzneimittel, die bereits auf dem Markt sind, deren genaue Targets aber noch unbekannt sind) eine Rolle. Und da Bioinformatik- und Epidemiologiestudien große Datenmengen umfassen, profitieren sie auch von der Anwendung von KI-Tools.

Bei Topazium haben wir zum Beispiel mehrere solcher Algorithmen entwickelt. Eines davon ist ein maschinelles Lernverfahren (MLF), das große Mengen klinischer und genetischer Informationen analysieren kann, um genetische Biomarker zu identifizieren, die mit schlechten Überlebensraten in Verbindung stehen. Es kann auch potenzielle neue therapeutische Targets finden. Ein weiteres von uns entwickeltes KI-Tool basiert auf graphischen neuronalen Netzen, die eine große Karte der molekularen Interaktionen innerhalb der Zelle durchlaufen können, um die Interaktionen zwischen bekannten Arzneimitteln und ihren natürlichen Rezeptoren zu untersuchen. Dies könnte neue, bisher unbekannte Angriffspunkte aufdecken, die sich als Ziele eignen könnten.

 

BC: Wir haben zwei wichtige Kategorien von Anwendungsfällen erwähnt, in denen KI Forschern bei der Identifizierung von Targets sinnvoll helfen kann: erstens die Analyse, das Abrufen und Zusammenfassen von Erkenntnissen aus großen Mengen textbasierter Daten wie wissenschaftlicher Literatur und zweitens die Erstellung von Vorhersagen über Beziehungen zwischen Biomolekülen und der menschlichen Physiologie, einschließlich Krankheitsverläufen. 

Ich möchte noch einen weiteren Anwendungsfall erwähnen – den Einsatz von LLMs als Kopiloten bei der Datenanalyse, zum Beispiel bei biostatistischen Analysen, wie sie in epidemiologischen Studien durchgeführt werden. Bei Globant setzen wir seit langem KI ein, um Tools und Plattformen zu entwickeln, die Software-Ingenieure dabei unterstützen, Code schneller zu schreiben. Mit dem Aufkommen der LLMs sind diese Instrumente noch leistungsfähiger geworden. Zum Beispiel sind Copiloten, die beim Schreiben von Python-Code helfen können, auf GitHub verfügbar. Wir können sie weiter ausbauen, um sie bereichsspezifisch zu machen; wir können Kopiloten für CDISC Integrationen oder für die Generierung von ADaM-Datensätzen erstellen und einsetzen, die in der Datenanalyse klinischer Studien verwendet werden. Diese Werkzeuge werden dazu beitragen, biomedizinische Daten schneller und effizienter zu verarbeiten und zu analysieren. 

JMD: Ja. Und diese letzte Anwendung, die Sie erwähnten, ist spannend, weil sie den Zugang zu Erkenntnissen von den Fähigkeiten oder dem Kenntnisstand des Nutzers entkoppelt. Letzten Endes sind das Fachwissen und das Urteilsvermögen der menschlichen Forscher bei der Entscheidung über die zu verfolgenden Forschungslinien von größter Bedeutung, und nichts kann die kreative Kraft des menschlichen Gehirns ersetzen, die die Grundlage von Forschung und Wissenschaft ist. Es gibt jedoch eine Menge Vorarbeit im Forschungsprozess, die weniger ausgebildete, weniger erfahrene Forscher leisten könnten. Ich denke, dass die anfängliche Spurensuche in diese Kategorie fällt und dass Hilfsmittel wie LLM-basierte Copiloten die Teilnahme an der Forschung für Menschen mit geringerem Bildungsstand erleichtern könnten.

BC: Lassen Sie uns kurz darüber sprechen, was passiert, wenn ein Hinweis bei der Target-Identifizierung gefunden wurde.

JMD: In Trockenstudien gefundene Hinweise müssen in „nassen” Laborexperimenten bestätigt werden. Die erste Linie der bestätigenden Beweise kann aus In-vitro-Experimenten stammen, die die Expressionsmuster des Target-Proteins zwischen gesunden und kranken Zellen und Geweben vergleichen. Sobald ein Zusammenhang zwischen einem Target und einer Krankheit nachgewiesen ist, wird die zweite Untersuchungslinie in zellulären Modellen oder sogar In-vivo durch Vorwärts- oder Rückwärtsgenetik durchgeführt. 

Beim Vorwärtsansatz werden in einem Organismus (einer Zelllinie oder einfachen Tieren wie Fliegen) zufällige Mutationen induziert, gefolgt von einem Screening auf Phänotypen von Interesse (z. B. eine bestimmte Krankheit oder ein bestimmtes Leiden). Sobald der interessierende Phänotyp identifiziert ist, verwenden die Forscher Techniken (wie genetische Kartierung), um das oder die Gene zu identifizieren, die für den Phänotyp verantwortlich sind. Beim umgekehrten Ansatz beginnen die Forscher mit einem Gen von Interesse und versuchen dann zu bestimmen, welcher Phänotyp, wenn überhaupt, aus der Mutation oder Deletion dieses Gens resultiert. Eine weitere Möglichkeit zur Bestätigung eines Zusammenhangs zwischen einem Target und einer Krankheit besteht in umfassenden genomischen und proteomischen Studien, bei denen die Unterschiede in den Expressionsmustern des Target-Proteins zwischen gesundem und krankem Gewebe untersucht werden.

BC: Es klingt so, als gäbe es noch mehr Möglichkeiten, KI in der Datenanalyse einzusetzen, vor allem wenn es um diese breit angelegten genomischen und proteomischen Studien geht.

JDM: Genau. Wie ich bereits erwähnt habe, haben wir bei Topazium ein maschinelles Lernsystem entwickelt, das Genomsequenzierungsdaten analysiert, um eine synthetische Darstellung von Patienten in einem latenten Raum zu erstellen, indem wir ihre wichtigsten genetischen Merkmale erfassen. Die Kombination von Erkenntnissen aus einer solchen synthetischen Darstellung mit klinischen Informationen aus derselben Patientenpopulation führt zu Schlussfolgerungen, die zur Ermittlung neuer therapeutischer Ziele genutzt werden können. Weitere Anwendungen dieses Ansatzes sind die Suche nach unerforschten Biomarkern, die Identifizierung von Mustern, die bei der Auswahl der am besten geeigneten Behandlung für jeden Patienten in der personalisierten Medizin helfen können, oder die Stratifizierung von Patienten für klinische Studien.

BC: Die Vorverarbeitung von Daten stellt eine praktische Möglichkeit für den Einsatz von KI bei der Analyse großer Datenmengen dar. Biomedizinische Daten, die in der realen Welt gesammelt werden, sind bekanntermaßen verrauscht und unübersichtlich, und Datenwissenschaftler verbringen mehr Zeit damit, die Daten für die Analyse nutzbar zu machen, als mit der eigentlichen Analyse der Daten. LLMs können wirksam zur Vorverarbeitung und Bereinigung von Daten eingesetzt werden. Sie können so geschult werden, dass sie Dateninkonsistenzen, Fehler oder Anomalien, wie fehlende Werte, Ausreißer oder falsche Formate, verstehen und erkennen. Sie können dazu verwendet werden, Daten zu standardisieren und zu normalisieren, um sicherzustellen, dass sie in einem für die Analyse geeigneten Format vorliegen; so können sie beispielsweise Textdaten in numerische Daten umwandeln oder Daten in vordefinierte Klassen einteilen. Es gibt also viele Möglichkeiten, KI, insbesondere genAI, zur Automatisierung von Vorverarbeitungs- und Reinigungsaufgaben einzusetzen. Das bringt uns zurück zu der praktischen Rolle, die KI heute bei der Steigerung der Effizienz von Forschungsprozessen spielen kann.

JMD: Das ist ein guter Punkt. Ich denke, dass wir zwar das künftige Potenzial der KI, einschließlich genAI, und die Rolle, die sie bei der Modellierung von Proteinen oder der Entwicklung von Arzneimitteln spielen wird, im Auge haben, und dass wir die Vorteile der Vorhersagekraft der KI schon heute nutzen können, dass aber die größte unmittelbare Chance in großem Maßstab in der Effizienz liegt, die Tools wie LLMs in die traditionell langsamen und arbeitsintensiven Prozesse der biomedizinischen Forschung einbringen können.

BC: Vielen Dank, Juan Manuel. Es war mir ein Vergnügen, mit Ihnen zu sprechen. Mir persönlich ist zwar klar, dass noch viel Arbeit in Bezug auf die Rechtsvorschriften und ethische Bedenken zu leisten ist, aber ich freue mich sehr über die unmittelbaren Möglichkeiten, die wir heute haben, um die biomedizinische Forschung einfacher, schneller und leichter zugänglich zu machen. Die Patienten warten, und wir haben keine Zeit zu verlieren.

Newsletter abonnieren

Erhalten Sie aktuelle Nachrichten, kuratierte Beiträge und Highlights. Wir versprechen, dass Sie niemals Spam-Mails von uns erhalten werden.

Das Studio „Data & AI“ macht sich die Leistungsfähigkeit von Big Data und künstlicher Intelligenz zunutze, um neue und bessere Erfahrungen und Dienstleistungen zu schaffen, die darüber hinausgehen, Daten ihren Wert zu entlocken und Abläufe zu automatisieren. Unser Ziel ist es, unseren Kunden einen Wettbewerbsvorteil zu verschaffen, indem wir den wahren Wert von Daten und KI erschließen, um sinnvolle, umsetzbare und zeitnahe Geschäftsentscheidungen zu treffen.

Jedes Fahrzeug hat eine eigene Geschichte. Hinter der mobilen Maschine, die wir sehen, liegt ein langer Weg bis zum Verkaufspunkt oder zu...

Januar 18, 2024

Dieser Beitrag setzt unsere Untersuchung der Sicherheit in Large Language Model (LLM)-Anwendungen fort und knüpft an die erste Diskussion in „Aufbau robuster...

&
Januar 16, 2024

Jahrzehntelang sind Unternehmen, darunter Finanzdienstleister, Einzelhändler, Telekommunikationsunternehmen und Versorgungsunternehmen, davon ausgegangen, dass die Ausfallraten in Zeiten wirtschaftlichen Abschwungs steigen. Aber angesichts der...

Oktober 3, 2023