27. Juli 2018
ERC Starting Grant für Dan Alistarh
Projekt zur Beschleunigung maschineller Lernalgorithmen durch verteilte Verarbeitung wird durch prestigeträchtigen Förderpreis unterstützt | Robustheit des maschinellen Lernens gegenüber Rauschen als Werkzeug zur effizienten Verteilung der Rechenarbeit
In dieser Förderrunde gehen zwei Starting Grants des Europäischen Forschungsrats (European Research Council, ERC) an Professoren des Institute of Science and Technology Austria (IST Austria). Einer der Preisträger ist der Informatiker Dan Alistarh, der 2017 an das IST Austria kam. In seinem Projekt, das der ERC mit rund 1,5 Millionen Euro unterstützen wird, will er die Zeit, die für das Trainieren von großskaligen Machine Learning Modellen nötig ist, durch neue Ansätze dramatisch verkürzen. Aufgaben des maschinellen Lernens effizient auf viele Rechner zu verteilen kann derzeit noch schwer umsetzbar sein. Das will Dan Alistarh ändern, indem er die Robustheit, die Algorithmen des maschinellen Lernens gegenüber Rauschen besitzen, für eine effiziente Verteilung der Arbeit nutzt.
Maschinelles Lernen und Data Science sind Bereiche, die sich in den letzten zehn Jahren enorme weiterentwickelt haben. Eine Maschine an einem modernen Datensatz zu trainieren kann jedoch viel Zeit in Anspruch nehmen. Dies limitiert die Anzahl der Ideen, die ForscherInnen innerhalb einer angemessenen Bearbeitungszeit testen können. In einem solchen Fall würden Informatiker normalerweise verteilte Systeme verwenden, sie würden also mehrere Computer oder Verarbeitungseinheiten gleichzeitig arbeiten lassen, um die Berechnung schneller abzuschließen. Standardmethoden der verteilten Verarbeitung lassen sich jedoch nicht leicht auf Algorithmen im maschinellen Lernen anwenden.
„Was passiert, wenn man beim maschinellen Lernen Standardmethoden anwendet, ist, dass sie anscheinend nicht gut funktionieren. Es kann durchaus vorkommen, dass man keine hochgenauen Modelle erhält oder dass die Leistung wesentlich geringer ist als erwartet“, erklärt Dan Alistarh.
Wenn eine Aufgabe auf mehrere „Knoten“ wie zum Beispiel CPUs oder GPUs verteilt wird, würde man hoffen, die Trainingszeit proportional zur Anzahl der Rechenknoten zu reduzieren. Das nennen Informatiker Skalierbarkeit. Bereits nach der Verteilung auf eine kleine Anzahl von Knoten kann es aber passieren, dass viele Algorithmen sich nicht weiter skalieren lassen. Der Grund dafür ist, dass die Knoten eine Vielzahl von Informationen austauschen müssen. Steigt die Anzahl der Knoten, muss das System immer mehr seiner Rechenleistung für die Kommunikation nutzen. „Am Ende bleibt ein System, das mehr Zeit für die Kommunikation verwendet als für die nützliche Berechnung, die es eigentlich ausführen soll“, fügt Alistarh hinzu.
Die Lösung könnte in der Robustheit maschineller Lernalgorithmen gegenüber Rauschen liegen: beispielsweise kann ein Bilderkennungsalgorithmus mit einigen falsch gekennzeichneten Bildern konfrontiert werden, ohne dass das Gesamtergebnis beeinträchtigt wird. Dan Alistarh wird ähnliche Aspekte der Robustheit verwenden, um die Menge an Kommunikation und Synchronisation zwischen Knoten zu reduzieren, ein Konzept, das er „elastische Koordination“ nennt.
Normalerweise würden die Knoten vollständige und umfangreiche Informationen wie zum Beispiel genaue Werte jedes Parameters übertragen. Aber im maschinellen Lernen scheint diese Präzision nicht immer notwendig zu sein, was eine Möglichkeit darstellt, die Kosten für Kommunikation und Synchronisation drastisch zu senken. Dan Alistarh und seine Forschungsgruppe werden diesen Ansatz verfolgen, um die Trainingszeit für maschinelles Lernen zu reduzieren. Gleichzeitig erwartet er von seiner Arbeit grundlegende Erkenntnisse zum verteilten Rechnen.
Dan Alistarh promovierte an der École Polytechnique Fédérale de Lausanne (EPFL) und bekleidete Positionen am MIT, bei Microsoft Research Cambridge in Großbritannien und an der ETH Zürich. Seit 2017 ist er am IST Austria, wo er eine Forschungsgruppe mit dem Titel “ Verteilte Algorithmen und Systeme “ leitet.