20. April 2021
Krankheiten statistisch vorhersagen
Wissenschafter_innen haben ein statistisches Modell erstellt, mit dem sie die Wahrscheinlichkeit für den Ausbruch bestimmter Krankheiten berechnen können.
Das Feld der personalisierten Medizin versucht, individuelle Risiken für Krankheiten anhand großer DNA-Datensätze abzuschätzen. Doch viele Krankheiten sind enorm multifaktoriell, das heißt, die genetischen Risikofaktoren sind über die gesamte DNA verteilt. Das Ziel von Matthew Robinson vom Institute of Science and Technology (IST) Austria und seinem internationalen Team ist es, diese schwer fassbaren Zusammenhänge zu finden und ein zuverlässiges und nachvollziehbares statistisches Modell daraus zu konstruieren.
Eine Vielzahl genetischer Faktoren kann das Auftreten von Krankheiten wie Bluthochdruck, Herzerkrankungen und Typ-2-Diabetes beeinflussen. Wenn man wüsste, wie die DNA das Risiko für solche Krankheiten beeinflusst, könnte man im Gesundheitssystem weniger reaktiv mehr präventiv agieren und so nicht nur die Lebensqualität der Patient_innen verbessern, sondern auch Kosten sparen. Das Aufspüren der Zusammenhänge zwischen der DNA und dem Ausbruch von Krankheiten erfordert jedoch statistische Modelle, die zuverlässig mit sehr großen Mengen an Daten von mehreren hunderttausend Patienten arbeiten können.
Matthew Robinson, Assistant Professor am Institute of Science and Technology (IST) Austria, hat nun gemeinsam mit einem internationalen Forschungsteam ein neues mathematisches Modell entwickelt, das die Qualität der Vorhersagen basierend auf großen Mengen genomischer Daten verbessert. Diese Methode könnte helfen, personalisierte Vorhersagen über Gesundheitsrisiken zu entwickeln, ähnlich wie es eine Ärztin tut, wenn sie die Krankheitsgeschichte einer Familie untersucht.
Flüchtige Verbindungen
Die menschliche DNA besteht aus mehreren Milliarden Basenpaaren, die unsere biologische Struktur und Funktionen kodieren. Für ihre Studie wählten die Wissenschafter_innen mehrere hunderttausend genetische Marker – kurze Abschnitte der DNA-Sequenz – als Grundlage für ihr Modell aus. Damit brachten sie dann die Zusammensetzung dieser Marker mit dem Auftreten von Bluthochdruck, Herzerkrankungen oder Typ-2-Diabetes bei den Patient_innen in Verbindung. Dabei interessierten sich die Forscher_innen besonders für das Alter der Patient_innen bei Ausbruch der Krankheit. Mit dieser Information können sie dann die Wahrscheinlichkeiten für das Auftreten dieser Krankheiten ab einem gewissen Alter berechnen.
Dieses statistische Modell kann jedoch keine direkten Beziehungen zwischen bestimmten Genen und dem Ausbruch einer Krankheit etablieren, sondern liefert nur eine verbesserte Vorhersage der Wahrscheinlichkeiten für den Ausbruch der Krankheit. Das heißt, dass es auf Basis der Gene einer Person nicht mit Sicherheit den Ausbruch einer Krankheit voraussagen kann. Des Weiteren gibt es auch einen wichtigen Unterschied zwischen den oftmals verwendeten Black-Box-Modellen für Big-Data-Studien und dieser Methode von Robinson und seinen Kolleg_innen. Black-Box-Modelle liefern zwar Vorhersagen, aber ihr innerer Aufbau ist aufgrund der vielen enthaltenen Ebenen von Abstraktion für Menschen nicht leicht zu verstehen. Im Gegensatz dazu liefert das Modell von Robinson und seinen Kolleg_innen nachvollziehbare statistische Berechnungen.
Die Fähigkeit, den genauen Aufbau eines mathematischen Modells zur Erstellung von Vorhersagen über die menschliche Gesundheit zu verstehen, ist ein wichtiger Teil eines ethischen Ansatzes zur Verwendung großer Mengen von Patientendaten.
Sensible Daten
Um das volle Potenzial solcher präventiven Methoden auszuschöpfen, bedarf es sowohl effektiver Modelle als auch der Sammlung großer genomischer Datensätze. Diese bringen wichtige Fragen zu Datensicherheit und Datenschutz mit sich, die sowohl von den Forscher_innen als auch dem Gesundheitssystem berücksichtigt werden müssen.
Bei der Verwendung von Patientendaten müssen strenge Maßnahmen zur Datensicherheit beachtet werden. Erst mit der Erlaubnis der jeweiligen Ethikkommissionen konnten die Wissenschafter_innen auf anonymisierte Patientendaten aus staatlichen Biobanken – große Sammlungen genetischer Patientendaten – sowohl in Großbritannien als auch in Estland zugreifen. Sie verwendeten die Daten aus Großbritannien, um ihr Modell zu erstellen, und die Daten aus Estland, um dessen Vorhersagekraft zu testen. Letztere ergaben sogar erste personalisierte Risikoeinschätzungen für den Ausbruch von Krankheiten. Diese werden zukünftig über das estnische Gesundheitssystem an die Patient_innen weitergegeben, um ihnen den Anreiz zu geben, vorbeugende Maßnahmen zu ergreifen.
Das neue statistische Modell von Robinson und Kollegen ist ein erster Schritt, um das volle Potenzial großer genomischer Datensätze für die präventive Gesundheitsvorsorge zu nutzen. Sowohl die Modelle als auch die Dateninfrastruktur von Biobanken, zusammen mit einem robusten und sicheren System für Datenschutz, werden benötigt, um die Versprechen der personalisierten Medizin zu erfüllen.
Publikation
Sven E. Ojavee, Athanasios Kousathanas, Daniel Trejo Banos, Etienne J. Orliac, Marion Patxot, Kristi Läll, Reedik Mägi, Krista Fischer, Zoltan Kutalik, Matthew R. Robinson. 2021. Genomic architecture and prediction of censored time-to-event phenotypes with a Bayesian genome-wide analysis. Nature Communications. DOI: 10.1038/s41467-021-22538-w
Projektförderung
Dieses Projekt wurde durch ein Eccellenza-Stipendium des SNF an MRR (PCEGP3-181181) sowie durch Kernmittel des Institute of Science and Technology Austria und der Universität Lausanne finanziert; die Arbeit von KF wurde durch das Stipendium PUT1665 des Estonian Research Council unterstützt. Die Forscher_innen möchten sich bei Mike Goddard für seine Kommentare bedanken, die die Arbeit stark verbessert haben, bei den Teilnehmer_innen der Kohortenstudien und bei der Ecole Polytechnique Federal Lausanne (EPFL) SCITAS für ihre hervorragenden Rechenressourcen, ihre Großzügigkeit mit ihrer Zeit und die Herzlichkeit ihrer Unterstützung.