Auf der Jagd nach neuen Wirkstoffen
Von der Idee bis zur Zulassung eines Medikaments vergehen im Schnitt 12 Jahre. Eine lange Zeitspanne für Erkrankte, die auf neue Behandlungsmöglichkeiten hoffen. Doch auch für die Forschenden selbst ist es ein langwieriger Prozess mit abnehmender Erfolgsquote. Mit dem Data Science Projekt "Algorithmic Data Science for Computational Drug Discovery", das im Rahmen des Programms "Vienna Research Groups for Young Investigators" vom WWTF gefördert wird, will Uni Wien Informatiker Nils Kriege einen Beitrag leisten, um vielversprechende Wirkstoffe schneller als bisher zu finden.
"In der Pharmaindustrie werden extrem viele Daten produziert," erklärt er, "um ein Arzneimittel zu finden, werden Moleküle synthetisiert und experimentell untersucht." Folgende Fragen stehen im Zentrum: Erfüllen die Moleküle bestimmte Eigenschaften? Binden Sie an ein Protein, das für eine bestimmte Krankheit relevant ist? Die Daten werden gesammelt. Der Suchraum relevanter Moleküle wird auf 1060 Strukturen geschätzt und ist damit unglaublich groß, für eine Untersuchung komme aber nur ein Bruchteil von ihnen in Frage: "Idee des Projektes ist es, die bereits existierenden Daten am Computer zu analysieren und zu nutzen, um möglichst rasch zu vielversprechenden Wirkstoffkandidaten zu kommen."
Chemie, Biologie und Medizin prägen die Arzneimittelforschung seit ihren Anfängen – im Vergleich dazu ist Data Science eine junge Disziplin, die an der Schnittstelle von Statistik, Informatik und einem Anwendungsgebiet liegt, wie hier der Arzneimittelforschung. Sie befähigt die Forschenden aus Daten Wissen zu generieren und daraus Schlüsse zu ziehen. Das verschafft nicht nur Pharmaunternehmen Wettbewerbsvorteile, sondern beschleunigt auch die Arzneimittelforschung. Biostatistiker*innen, Computerbiolog*innen und -chemiker*innen tragen durch die Entwicklung von Methoden zur Analyse großer Datensätze zur Entdeckung und Entwicklung von Arzneimitteln bei.
Künstliche Intelligenz entwickelt eigene Ansätze
"Der Einsatz von Computermethoden ist nicht neu in der Arzneimittelforschung," erzählt Kriege, der selbst schon während des Studiums in einem interdisziplinären Projekt mit Chemiker*innen arbeiten konnte. Nur seien in den letzten Jahren neue Methoden entstanden, die das Spektrum dessen, was man aus pharmazeutischen Daten lernen kann, erweitern. Die Pharmaindustrie interessiert sich zunehmend für Technologien wie künstliche Intelligenz, da man den Algorithmen die analytischen Techniken nicht länger einprogrammieren muss. Stattdessen füttert man sie mit zahlreichen Eingangsdaten, wie Molekülen und den dazu gehörenden Ergebnissen, z.B. wie sich diese Moleküle als Wirkstoff verhalten. Die Software entwickelt dann eigene Ansätze, die erklären, wie die Resultate zustande kommen.
Die wachsenden Data-Science-Teams der Pharmaunternehmen beschäftigen daher vermehrt Ingenieur*innen für maschinelles Lernen und spezialisierte Datenwissenschafter*innen mit Schwerpunkten wie Deep Learning, Bildverarbeitung oder Analyse von Körpersensoren. Während Programme, die auf klassischen maschinellen Lernverfahren beruhen, geordnete Datensätze benötigen, können neuere Ansätze wie aktuelle Deep-Learning-Verfahren auch mit komplexen Daten umgehen – allerdings brauchen sie deutlich größere Referenzmengen.
Deep Learning und seine Grenzen
"Der Erfolg von Deep Learning ist eine relativ neue Entwicklung," erklärt Kriege, "vor allem bei Bildern und Sprachdaten gibt es da Durchbrüche." Das Prinzip sei auch auf Graphen erweitert worden, so der Informatiker, "und Graphen sind ein geeignetes Konzept, um Moleküle zu beschreiben." Doch gerade bei Deep Learning Verfahren für Graphen stehe man auch vor Herausforderungen. "Für Algorithmen ist es schwer zu entscheiden, ob zwei Graphen die gleiche Struktur haben oder nicht," erklärt Kriege. Eine Lösung dieses Problems sei zukunftsweisend für die Wirksamkeit des Verfahrens, denn "wenn zwei verschiedene Moleküle nicht unterschieden werden können, dann kann man auch keine hundertprozentig korrekte Vorhersage treffen."
Unterschiedliche Struktur, gleiche Wirkung
Ein erstes Ziel des Projekts ist daher, effiziente Methoden zur graphenbasierten Ähnlichkeitssuche in großen molekularen Datenbanken zu entwickeln. "Es gibt also große Mengen von Moleküldaten, die experimentell untersucht werden," beginnt Kriege das Vorgehen seines Teams zu erläutern, "so findet man interessante Eigenschaften, zum Beispiel, dass ein Molekül an ein bestimmtes Protein bindet." Da es aber stets eine ganze Reihe von Molekülen gebe, die diese Eigenschaft haben, versuchen die Informatiker*innen die Strukturunterschiede dieser zu erfassen.
Besonders interessant sind für Kriege und sein Team Paare von Molekülen, die dieselbe Eigenschaft haben, sich aber nur an einer bestimmten Stelle, z.B. an einer Seitenkette, unterscheiden. "Wenn man diese Paare findet, kann man darauf schließen, dass die Seitenkette austauschbar ist," so Kriege, "und dieses Wissen in die Lernverfahren integrieren." So entstehe ein Regelsatz von Strukturen, die austauschbar sind, da sie die Eigenschaften nicht beeinflussen – Informationen, die maschinelle Lernverfahren nur schwer selbst aus den Datenmengen extrahieren können. Diese Art von Wissen haben natürlich auch viele Expert*innen aus eigener Erfahrung: "Viele Chemiker*innen können einem direkt sagen, welche Strukturen eine ähnliche Wirkung haben."
Simulierte Experimente testen die Wirkung
Ob die Methode sinnvoll ist, testen die Forscher*innen anhand bereits existierender Daten. "Wir führen ein simuliertes Experiment durch, bei dem wir einen Teil der Daten zurückhalten und so tun, als ob wir die Ergebnisse nicht kennen." Die Lernverfahren werden auf den Rest der Daten trainiert, um Vorhersagen zu machen. Dann überprüfen die Informatiker*innen die Genauigkeit der Vorhersagen. Falls die Methode vielversprechend ist, folgt der Austausch mit Chemiker*innen und Pharmazeut*innen. An welchen Problemen arbeitet die Branche gerade? Kann die Methode darauf angewendet werden?
Ziel ist es, die Lücke zwischen den klassischen, strukturbasierten Methoden, die Struktur und Wirkung in Beziehung setzen, und den vielversprechenden Deep Learning Verfahren zu schließen: Denn was momentan noch sehr theoretisch ist, könnte in der Zukunft als Methode im Labor getestet werden. "Ein Ziel, dass noch in weiter Ferne liegt, ist Wirkstoffe automatisiert zu generieren, also die Struktur zu erzeugen." Der Informatiker vergleicht das Vorgehen mit den momentan kursierenden KI-Bildern: "Da gebe ich eine Textbeschreibung ein und aus dieser wird ein Bild generiert." Auf ähnliche Weise könnte man in der Zukunft auch relevante Molekülstrukturen finden.